Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Solucionado (ver solução)

Que tipo de site não permite raspagem de dados?

Olá todos!

Para um projeto pessoal eu gostaria de fazer raspagem de dados de um sistema de informação em javascript. A página de retorno de uma pesquisa, por exemplo, não traz, no html, informação que me permita jogar no urlopen para acessar as informações no Python.

Algumas pessoas que trabalham com o sistema já me avisaram que realmente é um sistema muito fechado (isso é muito frustrante para muita gente). Por exemplo, o sistema oferece um número muito limitado de relatórios ao usuário, todos gerados em pdf.

A pergunta é: há algum tipo de página web que não permite a raspagem? Neste caso em específico, alguma dica de como eu poderia acessar o resultado de uma pesquisa para abrir no Python?

O sistema que eu quero acessar é este: https://sistemas.ufmg.br/siex/PrincipalVisitante.do

Abraço!

Marcelo Pereira

4 respostas

Oi Marcelo,

Este treinamento abordou uma técnica mais simples para fazer o scraping de uma página. Esta técnica lida com páginas HTML que já vem prontas do servidor para o cliente.

Páginas que são criadas do lado do cliente precisam de um outro tipo de abordagem para realizarmos sua raspagem. Em resumo, estas abordagens funcionam automatizando os navegadores para carregar o site e possibilitar a recuperação dos dados. Ferramentas como o Selenium, PhantomJS etc. ajudam nestas tarefas.

No caso da página que você está tentando acessar, eu preciso que você seja mais específico sobre que conteúdo destes site você pretende obter.

Fico no aguardo

Rodrigo

certo. preciso acessar os registros que utilizam palavra-chave "divulgação científica" e coletar as demais palavras-chave registradas.

solução

Fala Marcelo,

Segue uma solução para o seu problema:

https://github.com/rnandodias/web-scraping-siex/blob/master/web-scraping-siex-ufmg.ipynb

Observe que utilizo algumas técnicas não abordadas em nosso treinamento. Neste projeto precisamos enviar um formulário (método POST) e somente depois acessar as informações retornadas.

Talvez seja necessário que você reconfigure os cabeçalhos e alguns campos do formulário para atender as suas necessidades. Fique atento a estas duas dicas caso não consiga rodar o notebook que disponibilizei pra você.

Qualquer dúvida é só falar.

Abraço

Rodrigo

Muito obrigado Rodrigo!