Mejores lugares para encontrar conjuntos de datos públicos para tus proyectos: Edición 2023
Published on
En el vasto universo de los datos, encontrar el conjunto de datos adecuado para tu proyecto puede ser una tarea desalentadora. Ya sea que seas un científico de datos, un investigador o un aficionado, la calidad y relevancia de los datos que utilizas pueden hacer o deshacer tu proyecto. Este artículo tiene como objetivo guiarte a través de algunos de los mejores lugares para encontrar conjuntos de datos para tus proyectos, ayudándote a navegar por este cosmos de datos con facilidad.
Exploraremos una variedad de fuentes, desde plataformas populares de código abierto hasta bases de datos más especializadas y específicas. Cada fuente tiene sus fortalezas y ofertas únicas, y entender esto puede ayudarte a tomar una decisión informada sobre dónde obtener tus datos.
Kaggle: Un tesoro de conjuntos de datos
[Kaggle] (https://www.kaggle.com/ (opens in a new tab)) es una plataforma bien conocida entre los entusiastas de los datos. Es un centro de código abierto donde cualquiera puede publicar conjuntos de datos, lo que lo convierte en un tesoro de datos sobre una infinidad de temas. Ya sea que estés interesado en datos sísmicos o datos de ventas, Kaggle tiene todo cubierto.
Para usar Kaggle, simplemente ingresa tu tema deseado en la barra de búsqueda y se te presentará una lista de conjuntos de datos relevantes. Cada conjunto de datos viene con una breve descripción y puedes descargarlo directamente desde el sitio. Si bien algunos de estos conjuntos de datos pueden tener algunos años de antigüedad, siguen siendo valiosos para construir proyectos, especialmente si estás comenzando.
Búsqueda de conjuntos de datos de Google: Tu detective de datos
Si Kaggle es un tesoro, entonces [Búsqueda de conjuntos de datos de Google] (https://datasetsearch.research.google.com/ (opens in a new tab)) es tu detective personal de datos. Esta herramienta explora la web para encontrar conjuntos de datos que coincidan con tus criterios de búsqueda. Es un poco más complicado que Kaggle, ya que es posible que necesites visitar diferentes sitios web para descargar los conjuntos de datos, pero es una excelente manera de encontrar datos confiables de todo Internet.
Por ejemplo, si estás buscando un conjunto de datos sobre COVID-19, Búsqueda de conjuntos de datos de Google encontrará conjuntos de datos de diversas fuentes, incluyendo Kaggle, archivos CSV, archivos zip y PDF. Es como tener un asistente personal que hace toda la búsqueda de datos por ti.
FiveThirtyEight: Noticias basadas en datos
[FiveThirtyEight] (https://fivethirtyeight.com/ (opens in a new tab)) es un sitio web de noticias analíticas que proporciona acceso abierto a los datos que utilizan para sus artículos. Esto significa que puedes descargar una amplia variedad de conjuntos de datos desde su sitio. Por ejemplo, si estás interesado en las predicciones de la NHL, puedes descargar el conjunto de datos que utilizaron para su artículo sobre el tema.
Lo que distingue a FiveThirtyEight es que también puedes verificar los datos que utilizan en sus artículos. Esta transparencia no solo genera confianza, sino que también te permite comprender mejor el contexto de los datos.
Data.gov: Un portal a los datos del gobierno
[Data.gov] (https://data.gov/ (opens in a new tab)) es un sitio específico de EE.UU., pero existen sitios similares para gobiernos locales o agencias en la mayoría de los países. Es un recurso valioso para datos específicos de EE.UU., estados específicos o datos específicos del gobierno federal. Puedes buscar conjuntos de datos sobre una variedad de temas, como atención médica, y descargarlos directamente desde el sitio.
Los datos aquí son más específicos del gobierno, lo que los convierte en una fuente confiable para investigaciones y proyectos que requieren datos oficiales. Por ejemplo, si estás investigando sobre instalaciones de atención médica, puedes encontrar un conjunto de datos completo sobre instalaciones de atención médica con licencia en Data.gov.
GitHub: No solo para código
Si bien GitHub es conocido principalmente como una plataforma para compartir código, también es un recurso valioso para conjuntos de datos. Muchos usuarios, incluyéndome a mí, publicamos conjuntos de datos aquí de forma gratuita. Si buscas "conjunto de datos" en GitHub, encontrarás cientos de miles de repositorios. Puedes encontrar conjuntos de datos sobre una variedad de temas e incluso podrías encontrar proyectos enteros con código y conjuntos de datos incluidos.
GitHub requiere un poco más de familiaridad con su estructura y funciones, pero una vez que le tomas la mano, es una mina de oro de datos. Por ejemplo, puedes encontrar datos de tasas de mortalidad en formato CSV en uno de los repositorios.
- Conjuntos de datos públicos impresionantes (opens in a new tab)
- Conjuntos de datos de Hugging Face (opens in a new tab)
- Conjuntos de datos básicos seleccionados (opens in a new tab)
- Otro conjunto de datos públicos impresionantes (opens in a new tab)
- Conjuntos de datos para ML (opens in a new tab)
- Temas de conjuntos de datos en GitHub (opens in a new tab)
NASA: Datos que están fuera de este mundo
Para aquellos con pasión por el espacio y la astronomía, el portal de datos de [NASA] (https://data.nasa.gov/ (opens in a new tab)) es un tesoro de conjuntos de datos únicos. Los datos aquí son muy específicos y detallados, lo que lo convierte en un gran recurso para proyectos que requieren datos especializados y en profundidad.
Desde datos meteorológicos hasta observaciones astronómicas, el portal de datos de la NASA ofrece una amplia gama de conjuntos de datos que pueden agregar una dimensión única a tus proyectos. Si bien los datos pueden ser demasiado específicos para algunos proyectos, para aquellos que los necesitan, es un recurso invaluable.
Motores de búsqueda de conjuntos de datos: Tu puerta de entrada a más datos
Además de las fuentes mencionadas anteriormente, también existen varios motores de búsqueda de conjuntos de datos que pueden ayudarte a encontrar conjuntos de datos más específicos. Estos motores de búsqueda funcionan indexando conjuntos de datos de diversas fuentes, lo que te facilita encontrar los datos que necesitas.
Algunos motores de búsqueda de conjuntos de datos populares incluyen [Dataset Search] (https://datasetsearch.research.google.com/ (opens in a new tab)), [DataHub] (https://datahub.io/ (opens in a new tab)) y [Data.world] (https://data.world/ (opens in a new tab)). Estas plataformas te permiten buscar conjuntos de datos en múltiples fuentes, ahorrándote tiempo y esfuerzo al buscar cada fuente por separado.
Conclusión
Encontrar el conjunto de datos adecuado para tu proyecto no tiene por qué ser una tarea intimidante. Con los recursos adecuados, puedes encontrar una gran cantidad de conjuntos de datos que pueden ayudarte a que tu proyecto sea un éxito. Ya sea que estés buscando conjuntos de datos generales en Kaggle, datos gubernamentales en Data.gov o datos espaciales en el portal de datos de la NASA, hay un conjunto de datos disponible para cada proyecto.
Recuerda, la clave para encontrar el conjunto de datos adecuado es entender las necesidades de tu proyecto y saber dónde buscar. Con los recursos enumerados en este artículo, estás en camino de encontrar el conjunto de datos perfecto para tu proyecto. ¡Feliz caza de datos!
Preguntas frecuentes
-
¿Qué es Kaggle y cómo puede ayudarme a encontrar conjuntos de datos?
Kaggle es una plataforma de código abierto donde cualquiera puede publicar conjuntos de datos. Es un gran recurso para encontrar conjuntos de datos sobre una amplia gama de temas. Puedes buscar conjuntos de datos según tus necesidades y descargarlos directamente desde el sitio.
-
Estoy buscando datos gubernamentales. ¿Dónde puedo encontrarlos?
Data.gov es un gran recurso para datos específicos de Estados Unidos, datos específicos de estados o datos específicos del gobierno federal. En la mayoría de los países existen sitios similares para gobiernos o agencias locales. Puedes buscar conjuntos de datos sobre una variedad de temas y descargarlos directamente desde el sitio.
-
Necesito datos específicos para mi proyecto de astronomía. ¿Dónde puedo encontrarlos?
El portal de datos de la NASA es un gran recurso para datos espaciales y de astronomía. Los datos aquí son muy específicos y detallados, lo que lo convierte en un gran recurso para proyectos que requieren datos especializados y en profundidad.