#Desafio: lendo uma tabela de uma página web
dados_populacao = pd.read_html('/content/Lista de países por população.html')
#conferindo os dados importados
dados_populacao
#conferindo quantas tabelas existem
len(dados_populacao)
#selecionando a primeira tabela
dados_populacao = dados_populacao[0]
#desconsiderando a coluna unnamed, crescimento desde a última estimativa, estimativa oficial
dados_populacao = dados_populacao.iloc[:, 1:4]
#analisando os dados
#habilitando para mostrar todo o dataframe
pd.set_option('display.max_rows', None)
dados_populacao
#desabilitando para mostrar todo o dataframe
pd.reset_option('display.max_rows')
#tratando os dados
#Substituindo os textos de [Nota 1], [Nota 2] e [[File:|22x20px|border |alt=|link=]] na coluna de País
dados_populacao.replace(r'\[+.*?\]+', '', regex=True, inplace=True)
#confirmando a aplicação da substituição
dados_populacao.head(10)
#conferindo o restante dos dados
dados_populacao.tail(10)
#transformando a coluna Estimativa da ONU para número
dados_populacao['Estimativa da ONU'] = dados_populacao['Estimativa da ONU'].str.replace(' ','', regex = False).astype(int)
#conferindo o tipo da coluna
dados_populacao.dtypes