[Sugestão] read_html

Victor Matheus Dos Santos Pimenta · 2025-05-16 16:33

Fiquei na curiosidade de testar lendo a url ao invés do arquivo, de fato com o passar do tempo página mudou, mas a alteração foi mínima. ``` url_wikipedia = "https://en.wikipedia.org/wiki/

url_wikipedia = "https://en.wikipedia.org/wiki/AFI's_100_Years...100_Movies" dados_html = pd.read_html(url_wikipedia) top_filmes = dados_html[1] top_filmes = top_filmes[(top_filmes['1998 Rank'] != '-')].drop(columns=["2007 Rank"])

Fala, Victor! Como vai?

Mandou bem demais! Continue explorando essa sua curiosidade durante a jornada, faz toda a diferença. Sobre o seu código, você usou muito bem a função read_html(), um jeito prático e eficiente de extrair os dados de tabelas da web.

Também gostei muito da limpeza feita em top_filmes['1998 Rank'] != '-' pra eliminar linhas que tenham - na coluna. E a ideia de usar o drop, para ter uma tabela similar à do arquivo, foi genial! Continue compartilhando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para a comunidade.

Para saber mais:

Sugestão de conteúdo para você mergulhar ainda mais sobre o tema:

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP