프로젝트에 사용할 수 있는 공공 데이터 세트를 찾을 수 있는 최고의 장소: 2023 에디션
Published on
데이터의 거대한 우주에서 프로젝트에 적합한 데이터 세트를 찾는 것은 어려운 과제 일 수 있습니다. 데이터 과학자, 연구원 또는 취미로 데이터를 다루는 사람이더라도 사용하는 데이터의 품질과 관련성은 프로젝트의 성패를 좌우할 수 있습니다. 이 기사는 프로젝트에 데이터 세트를 찾는 가장 좋은 장소 중 일부를 안내하여 데이터 우주를 쉽게 탐색 할 수 있도록 도와줍니다.
우리는 인기있는 오픈 소스 플랫폼에서 더 특정한 데이터베이스로 이동하는 다양한 원본을 탐색 할 것입니다. 각 원본은 고유한 장점과 제공물을 갖고 있으며 이를 이해하는 것은 데이터를 원본으로 선택하는 데 도움이 될 수 있습니다.
Kaggle: 데이터 세트의 보물 창고
Kaggle (opens in a new tab)은 데이터 애호가 사이에서 잘 알려진 플랫폼입니다. 이는 누구나 데이터 세트를 게시할 수있는 오픈 소스 허브로, 다양한 주제에 대한 데이터의 보물 창고입니다. 지진 데이터나 판매 데이터에 관심이 있다면 Kaggle에서 찾을 수 있습니다.
Kaggle을 사용하려면 검색 창에 원하는 주제를 입력하면 관련 데이터 세트 목록이 표시됩니다. 각 데이터 세트에는 간단한 설명이 포함되어 있으며 사이트에서 직접 다운로드 할 수 있습니다. 이러한 데이터 세트 중 일부는 몇 년 전의 것 일 수 있지만, 특히 시작 단계에서라면 프로젝트를 구축하는 데 유용합니다.
Google 데이터 세트 검색: 당신의 데이터 탐정
Kaggle이 보물 창고라면 Google 데이터 세트 검색 (opens in a new tab)은 개인용 데이터 탐정입니다. 이 도구는 검색 기준과 일치하는 데이터 세트를 검색하기 위해 웹을 스캔합니다. 다양한 웹 사이트를 방문하여 데이터 세트를 다운로드해야하기 때문에 Kaggle보다는 더 많은 작업을 필요로하지만, 인터넷 전체에서 신뢰할 수있는 데이터를 찾는 좋은 방법입니다.
예를 들어, COVID-19 데이터 세트를 찾고 있다면 Google 데이터 세트 검색은 Kaggle, CSV 파일, 압축 파일 및 PDF를 포함한 다양한 소스에서 데이터 세트를 찾아줍니다. 데이터를 수집하는 개인 비서가 있는 것과 같습니다.
FiveThirtyEight: 데이터 기반 뉴스
FiveThirtyEight (opens in a new tab)는 뉴스 기사에 사용하는 데이터에 대한 개방적인 접근을 제공하는 분석적인 뉴스 웹 사이트입니다. 이는 사이트에서 다양한 데이터 세트를 다운로드 할 수 있음을 의미합니다. 예를 들어, NHL 예측에 관심이 있다면, 해당 주제에 대한 기사에 사용 된 데이터 세트를 다운로드 할 수 있습니다.
FiveThirtyEight를 독특하게 만드는 것은 기사에서 사용하는 데이터를 검증할 수도 있다는 것입니다. 이 투명성은 신뢰를 구축할뿐만 아니라 데이터의 문맥을 이해할 수 있게해줍니다.
Data.gov: 정부 데이터로의 게이트웨이
Data.gov (opens in a new tab)은 미국을 대상으로 한 사이트이지만 대부분의 국가에서 지역 정부나 기관을 위한 유사한 사이트가 존재합니다. 미국 특정, 주 특정 또는 연방 정부 특정 데이터에 중점을 둔 유용한 자원입니다. 건강 관련 데이터와 같은 다양한 주제의 데이터 세트를 검색하고 사이트에서 직접 다운로드 할 수 있습니다.
여기에있는 데이터는 정부에 특화되어 있어 연구 및 공식 데이터를 필요로하는 프로젝트에 신뢰할 수있는 원천으로 사용할 수 있습니다. 예를 들어, 의료 시설에 대해 자세한 데이터 세트를 Data.gov에서 찾을 수 있습니다.
GitHub: 코드뿐 아니라
GitHub은 주로 코드 공유 플랫폼으로 알려져 있지만 데이터 세트에 대한 유용한 리소스입니다. 나를 포함한 많은 사용자들이 여기에서 데이터 세트를 무료로 게시합니다. GitHub에서 "데이터 세트"를 검색하면 수십만 개의 저장소를 찾을 수 있습니다. 다양한 주제의 데이터 세트를 찾을 수 있으며 코드와 데이터 세트가 포함 된 전체 프로젝트를 찾을 수도 있습니다.
GitHub는 구조와 기능에 대한 약간의 친숙함이 필요하지만, 한번 사용법을 익히면 데이터의 보물창고입니다. 예를 들어, CSV 형식의 사망률 데이터를 한 저장소에서 찾을 수 있습니다.
- Awesome Public Datasets (opens in a new tab)
- Hugging Face Datasets (opens in a new tab)
- Curated Core Datasets (opens in a new tab)
- Another Awesome Public Datasets (opens in a new tab)
- Datasets for ML (opens in a new tab)
- Datasets GitHub Topics (opens in a new tab)
NASA: 이 세상 밖의 데이터
우주와 천문학에 빠져있는 사람들을위한 NASA의 데이터 포털 (opens in a new tab)은 독특한 데이터 세트의 보물창고입니다. 이곳의 데이터는 매우 특정하고 상세하여 심층적이고 특수한 데이터가 필요한 프로젝트에 훌륭한 자원이됩니다.
기상 데이터부터 천문학적 관측까지 NASA의 데이터 포털은 프로젝트에 독특한 차원을 추가 할 수있는 다양한 데이터 세트를 제공합니다. 데이터가 몇몇 프로젝트에는 너무 특정 할 수 있지만 정말 필요한 사람들에게는 값진 자원입니다.
데이터 세트 검색 엔진: 더 많은 데이터에 대한 게이트웨이
위에서 언급한 소스 외에도 더 구체적인 데이터 세트를 찾을 수있는 여러 데이터 세트 검색 엔진도 있습니다. 이러한 검색 엔진은 다양한 소스에서 데이터 세트를 인덱싱하여 필요한 데이터를 찾기 쉽게합니다.
일부 인기있는 데이터 세트 검색 엔진은 Dataset Search (opens in a new tab), DataHub (opens in a new tab) 및 Data.world (opens in a new tab)가 있습니다. 이러한 플랫폼을 사용하면 각 소스를 개별적으로 검색하는 시간과 노력을 절약 할 수 있습니다.
결론
프로젝트에 적합한 데이터 세트를 찾는 것은 어려운 작업이 아닙니다. 적절한 자원을 활용하면 프로젝트의 성공을 돕는 다양한 데이터 세트를 찾을 수 있습니다. Kaggle에서 일반 데이터 세트, Data.gov에서 정부 데이터, NASA의 데이터 포털에서 우주 데이터 등 여러분의 프로젝트에 맞는 데이터 세트를 찾을 수 있습니다.
기억해야 할 것은 프로젝트의 요구 사항을 이해하고 찾아야 할 위치를 알아내는 것입니다. 이 글에 나열된 자원들을 활용하면 프로젝트에 적합한 완벽한 데이터 세트를 찾을 수 있을 것입니다. 데이터 수집을 즐겁게 하세요!
자주 묻는 질문
-
Kaggle은 무엇이고 데이터 세트를 찾는 데 어떻게 도움이 될까요?
Kaggle은 누구나 데이터 세트를 게시할 수 있는 오픈 소스 플랫폼입니다. 다양한 주제의 데이터 세트를 찾는 데 좋은 자원입니다. 필요에 따라 데이터 세트를 검색하고 사이트에서 직접 다운로드할 수 있습니다.
-
정부 데이터를 찾고 있습니다. 어디에서 찾을 수 있을까요?
Data.gov는 미국의 특정, 주별 또는 연방 정부 특정 데이터를 찾는 데 좋은 자원입니다. 대부분의 국가에서 지역 정부나 기관을 위한 유사한 사이트가 존재합니다. 다양한 주제로 데이터 세트를 검색하고 사이트에서 직접 다운로드할 수 있습니다.
-
천문학 프로젝트용 특정 데이터가 필요합니다. 어디에서 찾을 수 있을까요?
NASA의 데이터 포털은 우주와 천문학 데이터를 찾는 데 좋은 자원입니다. 이곳의 데이터는 매우 구체적이고 상세하여 깊이 있는 특수한 데이터를 필요로 하는 프로젝트에 좋은 자원입니다.