Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Extrair imagens do Google

Bom dia!

Estou tentando extrair imagens das minhas pesquisas no google. Quando extraio a url da imagem no python, ela vem desconfigurada e não consigo acessar ela.

Exemplo:

url = 'https://www.google.com/search?q=tsla34&oq=tsla34&aqs=chrome.0.69i59j0l5j69i61l2.1319j1j1&sourceid=chrome&ie=UTF-8'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'}

req = Request(url, headers=headers)
response = urlopen(req)
html = response.read()
soup = BeautifulSoup(html, 'html.parser')

image = soup.find('g-img', class_="ivg-i PZPZlf").img
image.get('src')

o código me retorna:

''

e o esperado era me retornar:

''

Desde já agradeço!

2 respostas
solução!

Oi Júlio, como vai? Espero que esteja bem ^-^

O Google altera dinamicamente os nomes das classes do código e por esse motivo, apenas a biblioteca BeautifulSoup não é suficiente para que possamos fazer a extração dos dados específicos da página. Quanto ao retorno do código que você apresentou, ele se trata de uma simplificação do endereço esperado e esse endereço esperado nada mais é do que a própria imagem, porém, escrita em base64.

Mas e então? Como fazer esse scraping e pegarmos o endereço da imagem? Para isso podemos utilizar a biblioteca selenium, com ela iremos automatizar o processo de busca e utilizar um navegador real para simular a busca da pesquisa. Aqui, vale ressaltar uma diferença entre o selenium e o BeautifulSoup, a última é apenas um analisador de html, enquanto a selenium, além de analisar, também consegue nos fornecer recursos de automatização, como por exemplo: clique em determinado botão, mudar algum endereço, dentre outros.

Nesse problema em específico, precisamos acessar o código fonte da página de pesquisa, pois ele não muda, diferentemente daquele que é apresentado quando inspecionamos o elemento, onde o mesmo é re-renderizado. Caso queira ver esse código, basta clicar em Exibir código fonte da página:

image

Quando fazemos uma análise do código da página, é possível perceber que na tag que nos interessa (g-img) há um atributo denominado data-lpage que possui o endereço da imagem, veja:

image

E se clicarmos nesse endereço apresentado, iremos encontrar a própria imagem apresentada na pesquisa.

data-lpage="https://upload.wikimedia.org/wikipedia/commons/thumb/b/bd/Tesla_Motors.svg/372px-Tesla_Motors.svg.png"

Podemos utilizar isso ao nosso favor, pois, através do campo src que possui no endereço da imagem, por padrão, o Google irá encurtá-lo.

Pré requisitos para execução do código:

  • Utilizaremos o navegador Google Chrome, caso não o utilize, faça o download do mesmo neste link

  • Baixe o WebDriver responsável por auxiliar na automatização do procedimento, bem como abrir a página automaticamente e extrair o código fonte da página. Extraia o arquivo e o coloque na mesma pasta que estiver salvo o código

  • Instale a biblioteca Selenium através do seguinte comando: pip install selenium

Com o ambiente preparado, vamos ao código:

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

chrome_options = Options()
chrome_options.add_argument("--headless")

print('Aguarde, os dados estão sendo coletados...')

tempo_inicial = time.time()
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('https://www.google.com/search?q=tesla')

html = driver.page_source

soup = BeautifulSoup(html,'html.parser')
img_tesla = soup.find('g-img', class_='ivg-i')
endereco_imagem = img_tesla.get('data-lpage')
tempo_final = time.time()
print(f'Endereço da imagem: {endereco_imagem}')
print(f'Tempo de coleta: {tempo_final-tempo_inicial:.2f} segundos')

Resultado:

image

No código acima, utilizamos a biblioteca selenium apenas para extração do código fonte estático da página, toda análise fora feita com a biblioteca apresentada no curso: BeautifulSoup. Um detalhe é que adicionei o cálculo do tempo que o código leva para fazer a extração.

Deixo como referência para consultas a documentação do selenium.

Espero que te ajude e qualquer dúvida estou por aqui.

Abraços e bons estudos!

Boa tarde Nádia! Tudo joia por aqui. Espero que você esteja bem também.

Uau... que explicação completa! Esclareceu tudo, muito obrigado!!

Abraços

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software