Olá, tudo bem?
Gostaria de saber se existe um motivo específico para a imputação dos dados faltantes antes da realização do split de treino/teste.
Ao imputarmos valores ausentes antes da divisão, estaremos usando informações do conjunto de teste para preencher valores no conjunto de treinamento. Isso pode levar a um vazamento de dados, onde o modelo tem acesso a informações que não deveria ter durante o treinamento, ou até mesmo introduzir um viés no modelo, pois os valores ausentes no conjunto de treinamento serão preenchidos com base em toda a distribuição dos dados, e não apenas nos dados de treinamento.