Gostaria de tirar uma dúvida sobre a remoção de outliers com base no intervalo de confiança dos valores previstos (yhat).
Minha dúvida é se essa abordagem é estatisticamente adequada, considerando que o intervalo de confiança foi gerado a partir de um modelo treinado com todos os dados, inclusive aqueles que seriam considerados outliers. Isso me parece gerar um certo viés.
Por exemplo, se calcularmos o erro absoluto (|y - yhat|) e simplesmente removermos os pontos com maior erro para, em seguida, reajustar o modelo, certamente as métricas irão melhorar. No entanto, essa melhoria não viria de um real aumento da capacidade preditiva do modelo, mas sim da exclusão dos casos que ele não conseguiu explicar bem.
Dito isso, minha pergunta é: não seria mais adequado utilizar uma técnica de detecção de outliers independente do modelo, como o método do IQR ou algum outro procedimento que identifique outliers antes do treinamento, evitando esse possível viés?