Web Scraping na MagaLu

O ideal é que os web spiders sigam o arquivo robots.txt de um site durante a varredura. Ele tem regras específicas para bom comportamento, como a frequência com que você pode copiar, quais páginas permitem a varredura e quais você não pode. Alguns sites permitem que o Google raspe seus sites, não permitindo que outros sites façam a varredura. Isso vai contra a natureza aberta da Internet e pode não parecer justo, mas os proprietários do site têm o direito de recorrer a esse tipo de comportamento.

Você pode encontrar o arquivo robots.txt em sites. Geralmente é o diretório raiz de um site - http://example.com/robots.txt .

Se contiver linhas como as mostradas abaixo, significa que o site não gosta e não quer ser rasurado.

User-agent: *

Disallow:/

No entanto, como a maioria dos sites deseja estar no Google, sem dúvida o maior raspador de sites do mundo, eles permitem o acesso a bots e spiders.

https://www.magazineluiza.com.br/robots.txt

Parece que o site nao quer mesmo ser varrido!!!

We are sorry...

Garanta sua matrícula hoje e ganhe + 2 meses grátis