[Dúvida] Vazamento de dados com imputação de dados faltantes.

DANIEL L. ALVES · 2023-09-20 22:04

Olá, tudo bem? Gostaria de saber se existe um motivo específico para a imputação dos dados faltantes antes da realização do split de treino/teste. Ao imputarmos valores ausentes antes

Olá, Daniel! Tudo bem com você?

Sua pergunta é muito pertinente. A imputação de dados faltantes antes do split de treino/teste é uma prática comum e, de fato, pode levar a um vazamento de dados, como você mencionou. O ideal seria fazer a imputação de dados após a divisão dos dados de treino e teste, para que os dados de teste não influenciem de nenhuma maneira o treinamento do modelo.

No exemplo da aula, a imputação foi feita antes da divisão dos dados, provavelmente por simplicidade e para manter o foco no tratamento de dados faltantes. No entanto, na prática, é importante ter em mente a questão do vazamento de dados.

Para evitar isso, você poderia seguir os seguintes passos:

Divida seu conjunto de dados em treino e teste.
Calcule a média (ou qualquer outra métrica que você esteja usando para a imputação) no conjunto de treinamento.
Use essa média para preencher os valores ausentes tanto no conjunto de treinamento quanto no conjunto de teste.

Dessa forma, você estará usando apenas informações do conjunto de treinamento para a imputação, evitando o vazamento de dados. Você tem uma percepção bem afiada, continue assim!

No mais, bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP