1
resposta

tabela "populacao_estados" - aula 4 - vídeo "Tratando dados"

Boa tarde! É possível que a base usada pelo professor possua dados diferentes do disponibilizado atualmente para download?

Preciso de Auxilio com a validação de alguns números gerados na aula 4 - vídeo "Tratando dados", pois ao validar o resultado final da tabela "populacao_estados", alguns números do agrupamento apresentados em aula, não batem com uma segunda validação gerada via excel. Um exemplo é o estado "BA", cuja soma da população é 14.659.023 em aula e via excel, "BA" apresenta soma de 18.394.275. Também realizei, com Pandas, a substituição dos caracteres diretamente na coluna e, em sequencia, realizei o agrupamento somando os valores de população, os dados batem com a visualização do excel, mas diferem dos dados da aula.

Peço auxilio com uma terceira validação, através de métodos "alternativos" que não sigam os passos do professor ou os meus. Dessa forma é possível possível chegar a um número, para comparação, sem influencias externas.

Em caso de erros da minha parte, peço auxilio para localizar a causa raiz do problema.

segue minha tabela:

UF POPULAÇÃO
AC 829780
AL 3125254
AM 51589262
AP 774268
BA 18394275
CE 8936431
DF 2923369
ES 3975100
GO 17726760
MA 21230077
MG 20732660
MS 2833742
MT 3784239
PA 10892443
PB 4030961
PE 10540098
PI 3270174
PR 13127655
RJ 16615526
RN 3303953
RO 5772112
RR 634805
RS 11088065
SC 7762154
SE 2211868
SP 46024937
TO 1584306

1 resposta

Ei, Leonardo! Tudo bem?

Sim, é possível, o site do IBGE atualiza seus dados periodicamente. É natural que o arquivo Excel disponibilizado tenha alguma diferença, pois pode depender do momento e dia em que ele foi extraído. Às vezes, por gerar o arquivo horas depois, os dados já poderiam ter mudado.

Para fazer essa terceira validação sem sofrer influência dos métodos do professor (assign ou lambda), a sugestão é checar se o Pandas está lendo o ponto como separador decimal ou de milhar, o que causa erros na soma:

print(populacao_estados.groupby('UF')['populacao'].describe())

Se o seu código chegou ao resultado satisfatório, isso confirma que o seu processo de tratamento de dados está caminhando e que removeu certinho os caracteres especiais e converteu para inteiro.

Fique tranquilo para seguir o curso com os seus números. O mais importante é que você dominou a lógica de limpeza com replace, regex e o agrupamento com groupby.

Espero ter ajudado e qualquer dúvida, compartilhe no fórum.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado