Dificuldade para extrair parte de um texto

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

Referente ao curso Scraping com Python: coleta de dados na web, no capítulo Obtendo e limpando o HTML e atividade Projeto da aula anterior

por Maira Cristina Leal Rocha

| 100.7k xp | 12 posts

Pessoal, bom dia, estou com uma dúvida.

Eu estou tentando desenvolver um código para extrair notícias.

Na parte de pegar o conteúdo da notícia, eu estou usando o seguinte código:

url='https://web.archive.org/web/20201002163105/https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2020/09/30/pnad-continua-ibge-desemprego.htm' req=rq.get(url).text soup=bs(req,'html.parser') soup.find('div', attrs={'class':'text has-image '}).get_text()

Desse modo, eu capturo o que está dentro da div e dentro dessa class.

Porém, fazendo desse jeito eu vi que ele puxa tudo, inclusive os textos de títulos das outras notícias, que também aparecem na página.

Mas eu gostaria de extrair apenas o "texto puro", e eu vi que ele sempre está entre as tags

Alguém sabe me dizer como eu posso refinar mais esse comando soup.find, para acrescentar também a regra de extrair apenas o que está entre as tags

Muito obrigada

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP