2
respostas

Erro: HTTP Error 403: Forbidden

Na aula 7 do curso Python Pandas o instrutor executa um web scraping de um site na internet, utilizando o mesmo comando para o site que ele indicou e também para outros sites aleatórios da web, ocorre o erro: HTTP Error 403: Forbidden. Utilizei o jupyter notebook e o colab para executa o comando: import pandas as pd df_html = pd.read_html('https://www.federalreserve.gov/releases/h3/current/default.htm') df_html

Fiz uma pesquisa e parece que alguns sites permitem o scraping enquanto outros não. Seria essa a causa do erro? Vale lembrar que testei o mesmo comando com outros sites e o resultado foi o mesmo. O que está ocorrendo?

2 respostas

Na descrição da aula foi colocado que a utilização do pd.read_html é algo básico e que por vezes pode não retornar o esperado, onde no nosso caso, o esperado são as tabelas. Nesse caso é interessante verificar a dica dada por lá que é utilizar web scraping por meio de libs indicadas. Fiz uns testes com algumas páginas e o retorno foi positivo.

Código pode ser encontrado na transcrição da aula (https://cdn1.gnarususercontent.com.br/1/1385795/7d405ce5-64e6-4323-8a2d-c6729b9fdd6b.png)

Fiz ainda mais testes em outras páginas com igual sucesso. Dos endereços que testei, em somente1 de 6 não foi possível extrair as tabelas.

Olá, obrigado pela resposta. "pd.read_html é algo básico e que por vezes pode não retornar o esperado", logo, só me resta seguir com as aulas e aguardar que o instrutor ensine forma mais eficientes e menos básicas para realizar o web scraping.