O ideal é que os web spiders sigam o arquivo robots.txt de um site durante a varredura. Ele tem regras específicas para bom comportamento, como a frequência com que você pode copiar, quais páginas permitem a varredura e quais você não pode. Alguns sites permitem que o Google raspe seus sites, não permitindo que outros sites façam a varredura. Isso vai contra a natureza aberta da Internet e pode não parecer justo, mas os proprietários do site têm o direito de recorrer a esse tipo de comportamento.
Você pode encontrar o arquivo robots.txt em sites. Geralmente é o diretório raiz de um site - http://example.com/robots.txt .
Se contiver linhas como as mostradas abaixo, significa que o site não gosta e não quer ser rasurado.
User-agent: *
Disallow:/
No entanto, como a maioria dos sites deseja estar no Google, sem dúvida o maior raspador de sites do mundo, eles permitem o acesso a bots e spiders.
https://www.magazineluiza.com.br/robots.txt
Parece que o site nao quer mesmo ser varrido!!!