1
resposta

Tratamento de dados nulos e brancos

Fazer a aplicação das funções e métodos para tratar os dados não é um problema, Minha duvida é quando excluir uma linha, excluir uma coluna, interpolar valores, etc...

Veja o exemplo desse exercicio... Começamos com um dataframe de 6 linhas e terminamos com 2 linhas. Houve uma perda de 66,6% dos dados. Isso parece inaceitável... Eu diria que devemos coletar outros dados.

1 resposta

Oi Ceilton, tudo bem?

Sua preocupação é relevante!Perder muitos dados pode ser problemático, pois pode comprometer a representatividade do conjunto. Para minimizar a perda, recomendo primeiro analisare os dados para entender a extensão dos valores faltantes. Você pode usar o df.describe() e df.info() ajudam a identificar valores nulos e a relevância das colunas.

Além disso, em vez de excluir dados faltantes, considere imputar valores. Métodos incluem preencher com a média, mediana, valor mais frequente ou usar a interpolação. Por exemplo, df['coluna'] = df['coluna'].fillna(df['coluna'].mean()) preenche a coluna com a média.

Se a exclusão for realmente necessária, você pode estabelecer critérios específicos, como excluir linhas com muitos dados faltantes. Lembre-se de tratar outliers, pois podem distorcer a análise. Se a perda for significativa, realmente coletar é uma opção, para evitar limpeza agressiva. Ah e utilize gráficos para identificar padrões e outliers, para isso recomendo o matplotlib e seaborn.

Espero ter ajudado.

Qualquer dúvida, compartilhe no fórum.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!