Todas as linhas iguais

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

3
respostas

por Gabriel Caser Dos Passos

| 22.6k xp | 7 posts

Pessoal, boa tarde!

Tentei reproduzir a rotina de scrapping com um outro site, mas tive dois problemas:

todas as linhas voltaram iguais
o texto veio com informações como "\n\t\t\t\t\t\t\t"

Alguém consegue me ajudar a resolver esses dois problemas?

# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []

# Obtendo o HTML
response = urlopen('https://manesco.com.br/profissionais-manesco')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')

# Obtendo as TAGs de interesse
pessoas = soup.find("div",{"class": "profissionais_caixa_fotos"}).findAll("div",class_ = "profissionais_foto_col")

# Coletando as informações dos cards
for pessoa in pessoas:
    card = {}

    # Nome
    card['nome'] = soup.find('div', {'class': 'profissionais_foto_nome'}).getText()

    # E-mail
    card["email"] = soup.find("div", {"class": "profissionais_frente_email"}).getText()

    # Celular
    card["celular"] = soup.find("div", {"class": "profissionais_frente_cel"}).getText()


    # Adicionando resultado à lista cards
    cards.append(card)

    # Imagens
    box = soup.find("div", {"class": 'profissionais_foto_col'}).img
    urlretrieve(box.get("src"), "./output/img/" + box.get("src").split("-")[-1])


# Criando um DataFrame com os resultados
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset.csv', sep=';', index = False, encoding = 'utf-8-sig')
dataset

3 respostas

por Jose Fabio Ferraz de Campos

| 147.6k xp | 104 posts

06/11/2021

Aqui você tem que usar o pessoa no find:

    card['nome'] = pessoa.find('div', {'class': 'profissionais_foto_nome'}).getText()

para remover os '\n' e '\t' pode usar:

card['nome'] =  pessoa.find('div', {'class': 'profissionais_foto_nome'}).getText().replace('\n','').replace('\t','')

Existem modos com regex mas quis deixar simples

por Gabriel Caser Dos Passos

| 22.6k xp | 7 posts

06/11/2021

Deu certo! Mas quando tento fazer isso com as imagens recebo

AttributeError Traceback (most recent call last) in 33 34 # Imagens ---> 35 box = pessoa.find("div", {"class": 'profissionais_foto_col'}).img 36 urlretrieve(box.get("src"), "./output/img/" + box.get("src").split("-")[-1]) 37

AttributeError: 'NoneType' object has no attribute 'img'

solução!

por Jose Fabio Ferraz de Campos

| 147.6k xp | 104 posts

06/11/2021

Use

pessoa.find("img")

pessoa.img

O layout dos div da página está bagunçado. O div da imagem fecha depois dos outros.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP