Busca de palavras em uma página web

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

3
respostas

por Edson

| 52.2k xp | 224 posts

Escreva o método news() que aceita um URL de um site Web de notícias e uma lista de tópicos de notícias (ou seja, strings) e calcula o número de ocorrências de cada tópico nas notícias.

Exemplo de saída:

news('http://bbc.co.uk',['economy','climate','education'])
economy appears 3 times.
climate appears 3 times.
education appears 1 times.

O que eu fiz:

def news(url,tópicos):
    from urllib.request import urlopen
    response = urlopen(url)
    html = response.read()
    pagina = html.decode("UTF8")
    for tópico in tópicos:
        print(f"{tópico} appears {pagina.count(tópico)} times")

url = "http://g1.com.br"
url="http://bbc.co.uk"
tópicos = ["política", "economia", "emprego", "educação", "saúde", "meio ambiente", "tecnologia", "ciência"]
tópicos = ["economy","Travel ","news"]

news(url,tópicos)

Estou achando que tem algo errado na minha solução, uma vez que, ao entrar nas paginas e conferir as contagens, não bate! O que eu fiz de errado?

3 respostas

por Welton Vaz de Souza

| 240.5k xp | 321 posts

20/01/2020

Edson,

Seu código funcionou perfeitamente comigo.

por Edson

| 52.2k xp | 224 posts

20/01/2020

@Welton Vaz de Souza:

Mas quando conferimos "manualmente" usando buscar na página web, a contagem não bate...

solução!

por Lucas Peixoto de Alencar Rocha

| 1057.2k xp | 1640 posts

Instrutor

20/01/2020

Olá Edson,

Como o Welton disse o seu código está correto, mas tem alguns detalhes a serem considerados quanto a contagem:

Não é obrigatório, mas é recomendado que você não utilize acentos em nomes de variáveis, como em tópicos
Palavras minúsculas ou maiúsculas. Talvez seja melhor adicionar algo como: print(f"{topico} appears {pagina.lower().count(topico.lower())} times"), assim economy e Economy serão encontradas.
Um detalhe que pode estar causando a diferença na contagem é que itens internos, como classes css e código html, poderão conter o tópico procurado e irão modificar o valor da contagem. Nesse exemplo china aparece no href do link e no conteúdo:
```
<a class="block-link__overlay-link"
     href="/news/world-asia-china-51171035"
     rev="hero1|overlay"
     tabindex="-1"
     aria-hidden="true">
     China virus cases triple as infection spreads
</a>
```
Por último, dependendo do site alguma parte da página pode ser gerada/modificada por javascript, e assim o código atual não vai poder executar esse javascript para representar a página 100%, é necessário algo mais avançado como o selenium por exemplo para executar esse javascript.

O item 3 deve ser o mais importante para você considerar, coloca print(pagina.lower()) antes do for que você vai poder ver o texto onde é procurado os tópicos, copia isso e utiliza esse texto em algum editor para fazer a busca manual Ctrl + F que deve dar a mesma contagem que o seu método news().

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP