1
resposta

[Dúvida] Vazamento de dados com imputação de dados faltantes.

Olá, tudo bem?

Gostaria de saber se existe um motivo específico para a imputação dos dados faltantes antes da realização do split de treino/teste.

Ao imputarmos valores ausentes antes da divisão, estaremos usando informações do conjunto de teste para preencher valores no conjunto de treinamento. Isso pode levar a um vazamento de dados, onde o modelo tem acesso a informações que não deveria ter durante o treinamento, ou até mesmo introduzir um viés no modelo, pois os valores ausentes no conjunto de treinamento serão preenchidos com base em toda a distribuição dos dados, e não apenas nos dados de treinamento.

1 resposta

Olá, Daniel! Tudo bem com você?

Sua pergunta é muito pertinente. A imputação de dados faltantes antes do split de treino/teste é uma prática comum e, de fato, pode levar a um vazamento de dados, como você mencionou. O ideal seria fazer a imputação de dados após a divisão dos dados de treino e teste, para que os dados de teste não influenciem de nenhuma maneira o treinamento do modelo.

No exemplo da aula, a imputação foi feita antes da divisão dos dados, provavelmente por simplicidade e para manter o foco no tratamento de dados faltantes. No entanto, na prática, é importante ter em mente a questão do vazamento de dados.

Para evitar isso, você poderia seguir os seguintes passos:

  1. Divida seu conjunto de dados em treino e teste.
  2. Calcule a média (ou qualquer outra métrica que você esteja usando para a imputação) no conjunto de treinamento.
  3. Use essa média para preencher os valores ausentes tanto no conjunto de treinamento quanto no conjunto de teste.

Dessa forma, você estará usando apenas informações do conjunto de treinamento para a imputação, evitando o vazamento de dados. Você tem uma percepção bem afiada, continue assim!

No mais, bons estudos!