プロジェクト用の公共データセットのベストプレイス:2023年版
Published on
データの広大な宇宙の中で、プロジェクトに適したデータセットを見つけることは大変な作業です。データサイエンティスト、研究者、趣味のある人であるかにかかわらず、使用するデータの品質と関連性はプロジェクトの成否を左右する要素です。この記事では、プロジェクト用のデータセットを見つけるためのベストプレイスのいくつかを紹介し、データの宇宙をスムーズに航行できるようにガイドします。
より大きな人気のあるオープンソースプラットフォームからニッチで特定のデータベースまで、さまざまなソースを探索します。それぞれのソースには独自の強みと提供物があり、これらを理解することで、データの供給元を選ぶための情報を正確に判断することができます。
Kaggle:データセットの宝庫
Kaggle (opens in a new tab) はデータ愛好家の間でよく知られたプラットフォームです。さまざまなトピックのデータセットがあり、データセットを公開できるオープンソースのハブです。地震データや売上データに興味がある場合も、Kaggleで簡単に見つけることができます。
Kaggleを使用するには、検索バーに目的のトピックを入力するだけで、関連するデータセットのリストが表示されます。各データセットには簡単な説明が付いており、サイトから直接ダウンロードすることができます。これらのデータセットのいくつかは数年前のものかもしれませんが、プロジェクトの構築にはまだ価値があります。特に初心者の場合には特にそうです。
Google Dataset Search:あなたのデータ探偵
もしKaggleが宝庫ならば、Google Dataset Search (opens in a new tab) はあなたの個人のデータ探偵です。このツールはウェブを検索して、検索条件に一致するデータセットを見つけます。KaggleやCSVファイル、圧縮ファイル、PDFなど、さまざまなソースから信頼性のあるデータを見つけるのには少し手間がかかりますが、インターネット上の信頼性のあるデータを見つける優れた手段です。
たとえば、COVID-19のデータセットを探している場合、Google Dataset SearchはKaggleやCSVファイル、圧縮ファイル、PDFなど、さまざまなソースからデータセットを見つけます。まるでデータ探偵があなたのためにデータハンティングをしてくれるようなものです。
FiveThirtyEight:データに基づくニュース
FiveThirtyEight (opens in a new tab) は、ニュース記事で使用されるデータにオープンアクセスを提供する分析的なニュースウェブサイトです。したがって、サイトからさまざまなデータセットをダウンロードすることができます。たとえば、NHLの予測に興味がある場合、そのトピックの記事で使用されたデータセットをダウンロードすることができます。
FiveThirtyEightの特徴は、彼らが記事で使用しているデータを確認できる点です。この透明性は信頼を築くだけでなく、データの文脈をよりよく理解することもできます。
Data.gov:政府データへのゲートウェイ
Data.gov (opens in a new tab) は米国特有のサイトですが、ほとんどの国には地方自治体や機関向けの類似したサイトが存在します。米国特有、州特有、連邦政府特有のデータに関する貴重な情報源です。医療などのさまざまなトピックでデータセットを検索し、サイトから直接ダウンロードすることができます。
ここにあるデータは政府に特化しており、研究や公式データが必要なプロジェクトに信頼性のある情報源となります。たとえば、医療施設について調査している場合、Data.gov上でライセンスされた医療施設に関する包括的なデータセットを見つけることができます。
GitHub:コードだけでなく
GitHubは主にコードの共有プラットフォームとして知られていますが、データセットのための貴重なリソースでもあります。私を含め、多くのユーザーがここで無料でデータセットを公開しています。GitHubで「データセット」を検索すると、何十万ものリポジトリが見つかります。さまざまなトピックのデータセットを見つけることができ、コードとデータセットが含まれたプロジェクト全体を見つけることさえあります。
GitHubはその構造と機能にやや慣れが必要ですが、慣れればデータの宝庫です。たとえば、リポジトリの1つにはCSV形式の死亡率データがあります。
- Awesome Public Datasets (opens in a new tab)
- Hugging Face Datasets (opens in a new tab)
- [Curated Core Datasets](https://github.com/datasets (opens in a new tab)
- Another Awesome Public Datasets (opens in a new tab)
- Datasets for ML (opens in a new tab)
- Datasets GitHub Topics (opens in a new tab)
NASA:まるで別の世界のデータ
宇宙と天文に対する嗜好のある人々にとって、NASAのデータポータル (opens in a new tab)はユニークなデータセットの宝庫です。ここには非常に特定かつ詳細なデータがあり、詳細で専門的なデータが必要なプロジェクトには非常に価値のある情報源です。
気象データから天文観測まで、NASAのデータポータルにはプロジェクトにユニークな要素を追加するさまざまなデータセットが用意されています。データは一部のプロジェクトにはあまりにも特化しすぎているかもしれませんが、必要な人にとっては非常に貴重なリソースです。
データセット検索エンジン:より多くのデータへのゲートウェイ
上記で説明したソースに加えて、特定のデータセットを見つけるのに役立ついくつかのデータセット検索エンジンもあります。これらの検索エンジンはさまざまなソースからデータセットをインデックス化し、各ソースを個別に検索する手間を省くことができます。
一部の人気のあるデータセット検索エンジンには、Dataset Search (opens in a new tab)、DataHub (opens in a new tab)、Data.world (opens in a new tab) などがあります。これらのプラットフォームを使用すると、複数のソースからデータセットを検索できるため、各ソースを個別に検索する手間と労力を省くことができます。
結論
プロジェクトに適したデータセットを見つけることは困難な作業ではありません。適切なリソースを利用すれば、プロジェクトを成功させるのに役立つ多くのデータセットを見つけることができます。一般的なデータセットを探している場合は、KaggleやData.govなどのリソースがあります。NASAのデータポータルでは、宇宙データを見つけることができます。
データセットを見つけるための鍵は、プロジェクトのニーズを理解し、どこを探すかを知ることです。本記事で紹介したリソースを利用すれば、プロジェクトに最適なデータセットを見つけることができます。データハンティングを楽しんでください!
よくある質問
-
Kaggleとは何ですか?どのようにデータセットを見つけるのに役立ちますか?
Kaggleは誰でもデータセットを投稿できるオープンソースのプラットフォームです。様々なトピックのデータセットを探すための優れたリソースです。必要に応じてデータセットを検索し、サイトから直接ダウンロードすることができます。
-
政府のデータを探しています。どこで見つけることができますか?
Data.govは米国特定の州や連邦政府向けのデータの優れたリソースです。多くの国には地方自治体や機関向けの類似サイトが存在します。様々なトピックのデータセットを検索し、サイトから直接ダウンロードすることができます。
-
天文学のプロジェクトに特定のデータが必要です。どこで見つけることができますか?
NASAのデータポータルは宇宙と天文学のデータの優れたリソースです。ここにあるデータは非常に具体的で詳細なものであり、詳細な特殊なデータを必要とするプロジェクトには非常に役立つリソースです。