Pessoal, bom dia, estou com uma dúvida.
Eu estou tentando desenvolver um código para extrair notícias.
Na parte de pegar o conteúdo da notícia, eu estou usando o seguinte código:
url='https://web.archive.org/web/20201002163105/https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2020/09/30/pnad-continua-ibge-desemprego.htm' req=rq.get(url).text soup=bs(req,'html.parser') soup.find('div', attrs={'class':'text has-image '}).get_text()
Desse modo, eu capturo o que está dentro da div e dentro dessa class.
Porém, fazendo desse jeito eu vi que ele puxa tudo, inclusive os textos de títulos das outras notícias, que também aparecem na página.
Mas eu gostaria de extrair apenas o "texto puro", e eu vi que ele sempre está entre as tags
e
.Alguém sabe me dizer como eu posso refinar mais esse comando soup.find, para acrescentar também a regra de extrair apenas o que está entre as tags
e
?Muito obrigada