Onde eu posso pegar uma base de dados um pouco atualizada para fazer mais sentido, pois essa inicia de 2020.
Onde eu posso pegar uma base de dados um pouco atualizada para fazer mais sentido, pois essa inicia de 2020.
Olá, William! Tudo bem?
Excelente iniciativa. Buscar dados atualizados ou de contextos diferentes fortalece muito o portfólio e amplia o aprendizado.
Só para alinhar com o curso: embora a base comece em 2020, os dados disponibilizados vão até fevereiro de 2024, como aparece no final do dataframe mostrado em aula. Ou seja, já temos um histórico bem recente para treinar e validar o modelo.
Se você quiser explorar outras fontes, o que é ótimo para testar a robustez do Prophet, existem boas opções. O World Air Quality Index (WAQI) oferece dados históricos de milhares de estações ao redor do mundo em aqicn.org. No Kaggle, você pode pesquisar por “Air Quality Time Series” ou “Pollution Data” e encontrar bases prontas para uso. No Brasil, a CETESB disponibiliza dados históricos pelo sistema QUALAR em cetesb.. Nos Estados Unidos, a EPA mantém um portal organizado de dados abertos em epa.gov/outdoor-air-quality-data.
Caso utilize outra base, será necessário adaptar o pré-processamento feito na aula, já que o Prophet exige um formato específico. No curso, convertemos a coluna Data para datetime com pd.to_datetime(df['Data']). Em uma nova base, verifique se a coluna de data está no formato correto, trate valores ausentes e renomeie as colunas para o padrão exigido pelo Prophet, sendo ds para datas e y para a variável prevista.
Minha sugestão é desenvolver a primeira versão com a base do curso para garantir que todo o pipeline funcione corretamente. Depois, você pode criar uma versão 2.0 utilizando uma base externa e comparar os resultados.
Bons estudos e continue explorando.
Bons estudos!
Sucesso ✨