Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

Dificuldade para extrair parte de um texto

Pessoal, bom dia, estou com uma dúvida.

Eu estou tentando desenvolver um código para extrair notícias.

Na parte de pegar o conteúdo da notícia, eu estou usando o seguinte código:

url='https://web.archive.org/web/20201002163105/https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2020/09/30/pnad-continua-ibge-desemprego.htm' req=rq.get(url).text soup=bs(req,'html.parser') soup.find('div', attrs={'class':'text has-image '}).get_text()

Desse modo, eu capturo o que está dentro da div e dentro dessa class.

Porém, fazendo desse jeito eu vi que ele puxa tudo, inclusive os textos de títulos das outras notícias, que também aparecem na página.

Mas eu gostaria de extrair apenas o "texto puro", e eu vi que ele sempre está entre as tags

e

.

Alguém sabe me dizer como eu posso refinar mais esse comando soup.find, para acrescentar também a regra de extrair apenas o que está entre as tags

e

?

Muito obrigada