1
resposta

Como definir o que fazer com os dados faltantes?

Essa dúvida sempre me surge e ainda tenho dificuldade em saber o que fazer quando há dados faltantes. Eu sei que cada caso é um caso e somente a experiência profissional fará com que saibamos o que fazer com esses dados, mas enquanto isso, existe algum guia simplificado? Algo como boas práticas ou uma árvore de decisão como a que o Scikit-Learn disponibiliza para ajudar a escolher o estimador certo (https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html).

Obrigado!

1 resposta

Oi, Pedro! Tudo bem com você?

Desculpa a demora em te trazer uma resposta.

De fato, como tratar um dado NaN vai depender muito de cada caso, então é preciso uma boa análise de impacto desse valor NaN nas nossas informações. Como recomendação de boas práticas, posso te recomendar a leitura da resposta do tópico Dúvida: NaN que além de um problema clássico tratado também leva uma referência de leitura. Uma outra referência é o código da Live Quinta com Dados | Live Coding: Problemas clássicos de ML que está disponível no github que é feita uma análise dos dados antes de tratar os valores nulos.

Bons estudos!