Meilleurs endroits pour trouver des ensembles de données publics pour vos projets : Édition 2023
Published on
Dans l'immensité de l'univers des données, trouver le bon ensemble de données pour votre projet peut être une tâche ardue. Que vous soyez un data scientist, un chercheur ou un amateur, la qualité et la pertinence des données que vous utilisez peuvent faire ou défaire votre projet. Cet article vise à vous guider à travers certains des meilleurs endroits pour trouver des ensembles de données pour vos projets, en vous aidant à naviguer dans ce cosmos de données avec facilité.
Nous explorerons différentes sources, des plateformes open source populaires aux bases de données plus spécifiques et spécialisées. Chaque source a ses propres points forts et offres uniques, et les comprendre peut vous aider à prendre une décision éclairée sur l'endroit où sourcer vos données.
Kaggle : Un trésor d'ensembles de données
Kaggle (opens in a new tab) est une plateforme bien connue des passionnés de données. C'est un hub open source où n'importe qui peut publier des ensembles de données, en faisant ainsi un trésor de données sur une multitude de sujets. Que vous vous intéressiez aux données sismiques ou aux données de vente, Kaggle a ce qu'il vous faut.
Pour utiliser Kaggle, il suffit de taper le sujet souhaité dans la barre de recherche, et vous obtiendrez une liste d'ensembles de données pertinents. Chaque ensemble de données est accompagné d'une brève description, et vous pouvez le télécharger directement depuis le site. Même si certains de ces ensembles de données peuvent avoir quelques années, ils sont toujours précieux pour la création de projets, surtout si vous débutez.
Google Dataset Search : Votre détective des données
Si Kaggle est un trésor, alors Google Dataset Search (opens in a new tab) est votre détective personnel des données. Cet outil fouille le web pour trouver des ensembles de données correspondant à vos critères de recherche. Cela nécessite un peu plus de travail que Kaggle, car vous devrez peut-être visiter différents sites web pour télécharger les ensembles de données, mais c'est un excellent moyen de trouver des données fiables provenant de l'ensemble d'internet.
Par exemple, si vous recherchez un ensemble de données sur la COVID-19, Google Dataset Search trouvera des ensembles de données provenant de différentes sources, y compris Kaggle, des fichiers CSV, des fichiers zip et des PDF. C'est comme avoir un assistant personnel qui fait toute la recherche de données pour vous.
FiveThirtyEight : Des actualités basées sur les données
FiveThirtyEight (opens in a new tab) est un site web d'actualités analytiques qui offre un accès ouvert aux données utilisées pour leurs articles d'actualités. Cela signifie que vous pouvez télécharger une grande variété d'ensembles de données à partir de leur site. Par exemple, si vous êtes intéressé par des prédictions sur la LNH, vous pouvez télécharger l'ensemble de données qu'ils ont utilisé pour leur article sur le sujet.
Ce qui distingue FiveThirtyEight, c'est que vous pouvez également vérifier les données qu'ils utilisent dans leurs articles. Cette transparence permet non seulement de renforcer la confiance, mais aussi de mieux comprendre le contexte des données.
Data.gov : Une porte d'entrée vers les données gouvernementales
Data.gov (opens in a new tab) est un site spécifique aux États-Unis, mais des sites similaires existent pour les gouvernements locaux ou les agences dans la plupart des pays. C'est une ressource précieuse pour les données spécifiques aux États-Unis, aux États, ou au gouvernement fédéral. Vous pouvez rechercher des ensembles de données sur une variété de sujets, tels que les soins de santé, et les télécharger directement depuis le site.
Les données ici sont spécifiques au gouvernement, ce qui en fait une source fiable pour la recherche et les projets nécessitant des données officielles. Par exemple, si vous vous intéressez aux établissements de santé, vous pouvez trouver un ensemble de données complet sur les établissements de santé agréés sur Data.gov.
GitHub : Pas seulement pour le code
Bien que GitHub soit principalement connu comme une plateforme de partage de code, c'est également une ressource précieuse pour les ensembles de données. De nombreux utilisateurs, dont moi-même, publient des ensembles de données gratuitement ici. Si vous cherchez "ensemble de données" sur GitHub, vous trouverez des centaines de milliers de référentiels. Vous pouvez trouver des ensembles de données sur une variété de sujets, et vous pourriez même trouver des projets entiers avec le code et les ensembles de données inclus.
GitHub nécessite une certaine familiarité avec sa structure et ses fonctions, mais une fois que vous en avez l'habitude, c'est une mine d'or de données. Par exemple, vous pouvez trouver des données sur le taux de mortalité au format CSV dans l'un des référentiels.
- Awesome Public Datasets (opens in a new tab)
- Hugging Face Datasets (opens in a new tab)
- [Curated Core Datasets](https://github.com/datasets (opens in a new tab)
- Another Awesome Public Datasets (opens in a new tab)
- Datasets for ML (opens in a new tab)
- Datasets GitHub Topics (opens in a new tab)
NASA : Des données qui viennent d'ailleurs
Pour ceux qui ont un penchant pour l'espace et l'astronomie, le portail de données de la NASA (opens in a new tab) est une mine d'or d'ensembles de données uniques. Les données ici sont très spécifiques et détaillées, ce qui en fait une excellente ressource pour les projets nécessitant des données approfondies et spécialisées.
Des données météorologiques aux observations astronomiques, le portail de données de la NASA propose une large gamme d'ensembles de données qui peuvent ajouter une dimension unique à vos projets. Bien que les données puissent être trop spécifiques pour certains projets, pour ceux qui en ont besoin, c'est une ressource inestimable.
Moteurs de recherche d'ensembles de données : Votre porte d'accès à plus de données
Outre les sources mentionnées ci-dessus, il existe également plusieurs moteurs de recherche d'ensembles de données qui peuvent vous aider à trouver des ensembles de données plus spécifiques. Ces moteurs de recherche fonctionnent en indexant des ensembles de données provenant de différentes sources, ce qui facilite la recherche des données dont vous avez besoin.
Certains des moteurs de recherche d'ensembles de données populaires comprennent Dataset Search (opens in a new tab), DataHub (opens in a new tab), et Data.world (opens in a new tab). Ces plateformes vous permettent de rechercher des ensembles de données dans plusieurs sources, vous faisant ainsi gagner du temps et des efforts en évitant de chercher chaque source individuellement.
Conclusion
Trouver le bon ensemble de données pour votre projet ne doit pas être une tâche intimidante. Avec les bonnes ressources, vous pouvez trouver une multitude d'ensembles de données qui peuvent vous aider à réussir votre projet. Que vous recherchiez des ensembles de données généraux sur Kaggle, des données gouvernementales sur Data.gov ou des données spatiales sur le portail de données de la NASA, il existe un ensemble de données adapté à chaque projet.
Rappelez-vous, la clé pour trouver le bon ensemble de données est de comprendre les besoins de votre projet et de savoir où chercher. Avec les ressources répertoriées dans cet article, vous êtes bien parti pour trouver l'ensemble de données parfait pour votre projet. Bonne chasse aux données !
Questions fréquemment posées
-
Qu'est-ce que Kaggle et comment peut-il m'aider à trouver des ensembles de données ?
Kaggle est une plateforme open source où n'importe qui peut publier des ensembles de données. C'est une excellente ressource pour trouver des ensembles de données sur une large gamme de sujets. Vous pouvez rechercher des ensembles de données en fonction de vos besoins et les télécharger directement depuis le site.
-
Je recherche des données gouvernementales. Où puis-je les trouver ?
Data.gov est une excellente ressource pour les données spécifiques aux États-Unis, aux États fédéraux ou aux gouvernements fédéraux. Des sites similaires existent pour les gouvernements locaux ou les agences dans la plupart des pays. Vous pouvez rechercher des ensembles de données sur une variété de sujets et les télécharger directement depuis le site.
-
J'ai besoin de données spécifiques pour mon projet d'astronomie. Où puis-je les trouver ?
Le portail de données de la NASA est une excellente ressource pour les données spatiales et astronomiques. Les données ici sont très spécifiques et détaillées, ce qui en fait une excellente ressource pour les projets nécessitant des données spécialisées en profondeur.