1
resposta

Desafio - lendo uma tabela de uma página web

#Desafio: lendo uma tabela de uma página web

dados_populacao = pd.read_html('/content/Lista de países por população.html')

#conferindo os dados importados
dados_populacao

#conferindo quantas tabelas existem
len(dados_populacao)

#selecionando a primeira tabela
dados_populacao = dados_populacao[0]

#desconsiderando a coluna unnamed, crescimento desde a última estimativa, estimativa oficial
dados_populacao = dados_populacao.iloc[:, 1:4]

#analisando os dados
#habilitando para mostrar todo o dataframe
pd.set_option('display.max_rows', None)
dados_populacao

#desabilitando para mostrar todo o dataframe
pd.reset_option('display.max_rows')

#tratando os dados

#Substituindo os textos de [Nota 1], [Nota 2] e [[File:|22x20px|border |alt=|link=]] na coluna de País
dados_populacao.replace(r'\[+.*?\]+', '', regex=True, inplace=True)

#confirmando a aplicação da substituição
dados_populacao.head(10)

#conferindo o restante dos dados
dados_populacao.tail(10)

#transformando a coluna Estimativa da ONU para número
dados_populacao['Estimativa da ONU'] = dados_populacao['Estimativa da ONU'].str.replace(' ','', regex = False).astype(int)

#conferindo o tipo da coluna
dados_populacao.dtypes
1 resposta

Ei! Tudo bem, Vinicius?

Mandou muito bem no desafio, parabéns! Seu fluxo está claro, organizado e segue exatamente a proposta da atividade. Ótimo uso do read_html e da verificação de quantas tabelas existem antes de escolher uma e o tratamento com regex para limpar a coluna País foi uma excelente escolha.

Excelente trabalho e continue nesse ritmo! Qualquer dúvida, compartilhe no fórum.

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!