1
resposta

[WEB-SCRAPING] - Tentando carregar todo o site antes de 'raspar' as informaçoes

Eu estou tentando fazer um Webscraping de locais para alugar em sp no site do quinto andar, mas to tendo um problema que o site não deixa os imoveis em cache, usei selenium, e bs4, mas não consigo manter os imoveis em cache, este e o site 'https://www.quintoandar.com.br/alugar/imovel/sao-paulo-sp-brasil' eu chequei e o parâmetro Max_age da requisição que a principio e o tempo que mantem as informações em cache e alta, alguém tem alguma dica ? /ajuda?

from selenium import webdriver
from bs4 import BeautifulSoup
import time

PATH = PATH
url =  'https://www.quintoandar.com.br/alugar/imovel/sao-paulo-sp-brasil'

driver = webdriver.Chrome(PATH)
driver.get(url)

driver.maximize_window()

time.sleep(10)

driver.implicitly_wait(3)

posts = driver.find_elements_by_css_selector("div.sc-1txbuf3-0 dlJilS")

page = driver.execute_script("return document.documentElement.outerHTML;")

soup = BeautifulSoup(''.join(page), 'html.parser')
driver.close()
1 resposta

Oii Carlos, como você está?

Peço desculpas pela demora em obter um retorno.

Não entendi muito bem seu objetivo, vou te fazer algumas perguntas para que eu possa compreender melhor para te ajudar:

  • Quando você diz sobre manter em cache, se refere a ir salvando os dados conforme a rolagem da página? Se puder exemplificar.
  • Quais os dados pretende buscar na página? Exemplo: título, preço...

Fico no aguardo.

Grande abraço e bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software