Solucionado (ver solução)
Solucionado
(ver solução)
4
respostas

Fonte de Dados .csv

Estive tentando buscar a fonte de dados de forma autônoma, já que em aplicações reais nem sempre teriamos um DF prontinho pra analisar. Visto que o link 'Fonte de Dados' está quebrado (ao menos para mim):

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

que aparece no início do notebook do projeto, tentei ir atrás no site do IBGE e terminei na seguinte página:

https://www.ibge.gov.br/estatisticas/sociais/educacao/9127-pesquisa-nacional-por-amostra-de-domicilios.html?t=downloads Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Fazendo o download na pasta /microdados/2015 não consigo encontrar a fonte de dados que estamos trabalhando nas ultimas aulas... Apenas .txt, que não consigo abrir com o pandas... Alguém tem ideia de como estão dispostos esses dados na web e como podemos tirar proveito deles?

4 respostas
solução!

Olá, Rafael, tudo bem?

A leitura dos microdados disponibilizados pelo professor passou por um tratamento que demanda um maior entendimento de Python e de como os dados estão apresentados no IBGE. No próprio site que você sugeriu temos uma pasta chamada microdados e dentro dela é possível baixar, por exemplo, os microdados do PNAD2015.

Dentro dos arquivos compactados, temos a leitura tanto em R como também em .txt em que o IBGE disponibiliza uma documentação de como manipular esses arquivos. Você pode utilizar essa documentação para conseguir preparar os dados no formato que deseja para ler em Python (.xlsx, .csv entre outros).

Um outro caminho que será um pouco mais complexo é ler a documentação da função do pandas que faz esse tipo de leitura, a read_fwf (https://pandas.pydata.org/docs/reference/api/pandas.read_fwf.html), e construir manualmente o seu algoritmo.

Entretanto, como o professor manipulou os dados e os preparou para essa determinada formação, aconselhamos inicialmente focar na aplicação prática de estatística com Python que é o conhecimento que está sendo trasmitido.

Espero que tenhamos te ajudado a compreender sobre essa questão.

Qualquer dúvida é só chamar!

Forte abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

Boa tarde, Afonso!

Muito obrigado pelo esclarecimento, identifiquei os arquivos dos quais falaste aqui!!

No fim não consegui manipular os .txt mesmo tentando com a documentação, mas vou seguindo no curso e quem sabe as coisas ficam mais claras. Você tem alguma sugestão de onde seguir meus estudos para criar mais familiaridade com esse webscrapping?

Abraço!

Att, Rafael

Olá, Rafael!

Temos alguns cursos que apresentam algumas noções de Web Scrapping. Um deles é o Scraping com Python: Coleta de dados na web que está dentro da Formação Data Science e que recomendamos fortemente fazê-la na ordem dos cursos, caso queria ingressar na carreira de Data Science.

É uma boa base fazer toda a formação e se quiser se aprofundar ainda mais indicamos o livro Web Scraping com Python: Coletando dados na Web moderna da O'Rilley.

Abraços e bons estudos!

A quem interessar, após as diretrizes do Afonso, consegui fazer o algoritmo em python, somente usando a biblioteca pandas, para traduzir os dados que são baixados em .txt!!

Coloquei no meu repositório:

https://github.com/rafzzi/projeto_webscrapping