Dúvida: NaN

Samara Shimon · 2022-08-13 18:58

Olá pessoal! Estava testando retirar os NaN's da tabela, porém, na hora de somar/agrupar por país percebi que a minha tabela retornou apenas alguns países (imagem abaixo), ou seja, retirou tod

Olá! Tudo bem com você?

Se a única alteração que você fez no DataFrame foi remover valores nulos com dropna(), pode ser que como temos vários valores NaN, ao excluir a linha que continham esses valores também excluímos vários países. Devemos ter muito cuidado ao tratar valores NaN porque em alguns casos podemos perder muitos dados importantes para a análise.

Então sempre precisamos entender como os valores NaN podem impactar na análise pois assim, descobrimos uma melhor forma de tratar eles. Por exemplo, tendo uma coluna no banco que esteja com mais de 30% ou 40% dos dados como valores nulos, teríamos uma alta quantidade de dados nulos em uma única coluna, por isso perderíamos muitos dados do conjunto de dados se fossemos apenas remover todas as linhas que têm valores nulos, faria então mais sentido remover toda a coluna que está com valores nulos.

Além desse exemplo existem vários outros problemas e análises de impacto de valores NaN, por isso sugiro a leitura do artigo Tratamento e Transformação de Dados NaN: Uma visão geral e prática que traz uma boa abordagem de como analisar e tratar valores NaN com python pandas. Pode ser que algumas das soluções que ele informa sejam mais interessantes para sua análise ;-)

Espero ter te ajudado. Bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP