1
resposta

Web Scraping na MagaLu

Tentei fazer o Web Scraping no site da Magazine Luiza mas ele dá um erro de ''400 Bad Request'' e o html gerado vem com esse aviso:

We are sorry...

...but your activity and behavior on this website made us think that you are a bot.

  1. To protect this website, we cannot process your request right now.
  2. Alguma sugestão para pegar as informações desse site em especifico?

1 resposta

O ideal é que os web spiders sigam o arquivo robots.txt de um site durante a varredura. Ele tem regras específicas para bom comportamento, como a frequência com que você pode copiar, quais páginas permitem a varredura e quais você não pode. Alguns sites permitem que o Google raspe seus sites, não permitindo que outros sites façam a varredura. Isso vai contra a natureza aberta da Internet e pode não parecer justo, mas os proprietários do site têm o direito de recorrer a esse tipo de comportamento.

Você pode encontrar o arquivo robots.txt em sites. Geralmente é o diretório raiz de um site - http://example.com/robots.txt .

Se contiver linhas como as mostradas abaixo, significa que o site não gosta e não quer ser rasurado.

User-agent: *

Disallow:/

No entanto, como a maioria dos sites deseja estar no Google, sem dúvida o maior raspador de sites do mundo, eles permitem o acesso a bots e spiders.

https://www.magazineluiza.com.br/robots.txt

Parece que o site nao quer mesmo ser varrido!!!