Melhores lugares para encontrar conjuntos de dados públicos para seus projetos: Edição de 2023
Published on
No vasto universo de dados, encontrar o conjunto de dados correto para o seu projeto pode ser uma tarefa assustadora. Se você é um cientista de dados, um pesquisador ou um entusiasta, a qualidade e relevância dos dados que você usa podem fazer ou quebrar o seu projeto. Este artigo tem como objetivo orientá-lo sobre alguns dos melhores lugares para encontrar conjuntos de dados para seus projetos, ajudando você a navegar por esse cosmos de dados com facilidade.
Vamos explorar uma variedade de fontes, desde plataformas populares de código aberto até bancos de dados mais específicos e de nicho. Cada fonte possui pontos fortes e ofertas exclusivas, e entender isso pode ajudá-lo a tomar uma decisão informada sobre onde obter seus dados.
Kaggle: Um tesouro de conjuntos de dados
Kaggle (opens in a new tab) é uma plataforma conhecida entre os entusiastas de dados. É um hub de código aberto onde qualquer pessoa pode postar conjuntos de dados, tornando-o um tesouro de dados sobre uma infinidade de tópicos. Se você está interessado em dados sobre terremotos ou dados de vendas, o Kaggle tem o que você precisa.
Para usar o Kaggle, basta digitar o tópico desejado na barra de pesquisa e você será apresentado a uma lista de conjuntos de dados relevantes. Cada conjunto de dados vem com uma breve descrição e você pode baixá-lo diretamente do site. Embora alguns desses conjuntos de dados possam ter alguns anos, eles ainda são valiosos para a construção de projetos, especialmente se você estiver começando.
Google Dataset Search: Seu detetive de dados
Se o Kaggle é um tesouro, então Google Dataset Search (opens in a new tab) é o seu detetive de dados pessoal. Essa ferramenta vasculha a web em busca de conjuntos de dados que correspondam aos seus critérios de pesquisa. É um pouco mais trabalhoso do que o Kaggle, pois você pode precisar visitar diferentes sites para baixar os conjuntos de dados, mas é uma ótima maneira de encontrar dados confiáveis em toda a internet.
Por exemplo, se você está procurando um conjunto de dados sobre COVID-19, o Google Dataset Search encontrará conjuntos de dados de várias fontes, incluindo Kaggle, arquivos CSV, arquivos ZIP e PDFs. É como ter um assistente pessoal que faz toda a busca de dados para você.
FiveThirtyEight: Notícias baseadas em dados
FiveThirtyEight (opens in a new tab) é um site de notícias analíticas que fornece acesso aberto aos dados que eles usam em seus artigos. Isso significa que você pode baixar uma ampla variedade de conjuntos de dados do site. Por exemplo, se você está interessado em previsões da NHL, pode baixar o conjunto de dados que eles usaram para o artigo sobre o assunto.
O que diferencia o FiveThirtyEight é que você também pode verificar os dados que eles usam em seus artigos. Essa transparência não apenas constrói confiança, mas também permite que você entenda melhor o contexto dos dados.
Data.gov: A porta de entrada para dados governamentais
Data.gov (opens in a new tab) é um site específico dos EUA, mas sites semelhantes existem para governos locais ou agências na maioria dos países. É um recurso valioso para dados específicos dos EUA, do estado ou do governo federal. Você pode pesquisar por conjuntos de dados em uma variedade de tópicos, como saúde, e baixá-los diretamente do site.
Os dados aqui são mais específicos do governo, o que os torna uma fonte confiável para pesquisa e projetos que exigem dados oficiais. Por exemplo, se você está pesquisando sobre instalações de saúde, pode encontrar um conjunto de dados abrangente sobre instalações de saúde licenciadas no Data.gov.
GitHub: Não apenas para código
Embora o GitHub seja conhecido principalmente como uma plataforma para compartilhar código, também é um recurso valioso para conjuntos de dados. Muitos usuários, inclusive eu, postam conjuntos de dados gratuitamente aqui. Se você pesquisar por "conjunto de dados" no GitHub, encontrará centenas de milhares de repositórios. Você pode encontrar conjuntos de dados sobre uma variedade de tópicos e até mesmo encontrar projetos inteiros com código e conjuntos de dados incluídos.
O GitHub requer um pouco mais de familiaridade com sua estrutura e funções, mas assim que você se acostumar, será uma mina de ouro de dados. Por exemplo, você pode encontrar dados sobre taxa de mortalidade em formato CSV em um dos repositórios.
- Awesome Public Datasets (opens in a new tab)
- Hugging Face Datasets (opens in a new tab)
- Curated Core Datasets (opens in a new tab)
- Another Awesome Public Datasets (opens in a new tab)
- Datasets for ML (opens in a new tab)
- Datasets GitHub Topics (opens in a new tab)
NASA: Dados que vão além deste mundo
Para aqueles com um interesse por espaço e astronomia, o portal de dados da NASA (opens in a new tab) é um tesouro de conjuntos de dados únicos. Os dados aqui são muito específicos e detalhados, tornando-o um ótimo recurso para projetos que exigem dados aprofundados e especializados.
De dados meteorológicos a observações astronômicas, o portal de dados da NASA oferece uma ampla variedade de conjuntos de dados que podem adicionar uma dimensão única aos seus projetos. Embora os dados possam ser muito específicos para alguns projetos, para aqueles que precisam deles, é um recurso inestimável.
Motores de busca de conjuntos de dados: Sua porta de entrada para mais dados
Além das fontes mencionadas acima, também existem vários motores de busca de conjuntos de dados que podem ajudá-lo a encontrar conjuntos de dados mais específicos. Esses motores de busca funcionam indexando conjuntos de dados de várias fontes, facilitando a busca dos dados que você precisa.
Alguns motores de busca populares de conjuntos de dados incluem Dataset Search (opens in a new tab), DataHub (opens in a new tab) e Data.world (opens in a new tab). Essas plataformas permitem que você pesquise conjuntos de dados em várias fontes, poupando tempo e esforço de pesquisar cada fonte individualmente.
Conclusão
Encontrar o conjunto de dados certo para o seu projeto não precisa ser uma tarefa assustadora. Com os recursos certos, você pode encontrar uma infinidade de conjuntos de dados que podem ajudá-lo a tornar o seu projeto um sucesso. Seja procurando conjuntos de dados gerais no Kaggle, dados governamentais no Data.gov ou dados espaciais no portal de dados da NASA, há um conjunto de dados lá fora para cada projeto.
Lembre-se, a chave para encontrar o conjunto de dados certo é entender as necessidades do seu projeto e saber onde procurar. Com os recursos listados neste artigo, você está bem encaminhado para encontrar o conjunto de dados perfeito para o seu projeto. Boa caça aos dados!
Perguntas frequentes
-
O que é o Kaggle e como ele pode me ajudar a encontrar conjuntos de dados?
O Kaggle é uma plataforma open-source onde qualquer pessoa pode publicar conjuntos de dados. É um ótimo recurso para encontrar conjuntos de dados sobre uma ampla variedade de tópicos. Você pode pesquisar por conjuntos de dados com base nas suas necessidades e baixá-los diretamente do site.
-
Estou procurando dados governamentais. Onde posso encontrar isso?
O Data.gov é um ótimo recurso para dados específicos dos EUA, específicos de estados ou específicos do governo federal. Sites semelhantes existem para governos locais ou agências na maioria dos países. Você pode pesquisar por conjuntos de dados sobre diversos tópicos e baixá-los diretamente do site.
-
Preciso de dados específicos para o meu projeto de astronomia. Onde posso encontrar isso?
O portal de dados da NASA é um ótimo recurso para dados espaciais e de astronomia. Os dados aqui são muito específicos e detalhados, o que os torna um ótimo recurso para projetos que exigem dados especializados e detalhados.