1
resposta

[Sugestão] read_html

Fiquei na curiosidade de testar lendo a url ao invés do arquivo, de fato com o passar do tempo página mudou, mas a alteração foi mínima.

url_wikipedia = "https://en.wikipedia.org/wiki/AFI's_100_Years...100_Movies"

dados_html = pd.read_html(url_wikipedia)

top_filmes = dados_html[1]

top_filmes = top_filmes[(top_filmes['1998 Rank'] != '-')].drop(columns=["2007 Rank"])

Eles acrescentaram uma coluna com os filmes de 2007. Por padrão a coluna já vem ordenada com os filmes de 98, então só precisei remover a coluna dos filmes de 2007 e remover os filmes que estavam associados a essa coluna. É interessante usar a url completa com o "https://" para que o pandas entenda como URL válida e não um html literal. (recebi um warning e um erro com o parser, kkkkk)

1 resposta

Fala, Victor! Como vai?

Mandou bem demais! Continue explorando essa sua curiosidade durante a jornada, faz toda a diferença. Sobre o seu código, você usou muito bem a função read_html(), um jeito prático e eficiente de extrair os dados de tabelas da web.

Também gostei muito da limpeza feita em top_filmes['1998 Rank'] != '-' pra eliminar linhas que tenham - na coluna. E a ideia de usar o drop, para ter uma tabela similar à do arquivo, foi genial! Continue compartilhando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para a comunidade.

Ícone de sugestão Para saber mais:

Sugestão de conteúdo para você mergulhar ainda mais sobre o tema:

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

AluraConte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!