Olá, Carlos, tudo bem?
A questão do "data leakage" é realmente importante e deve ser considerada com cuidado. No curso, a abordagem adotada é uma estratégia para entender como o modelo se comporta sem a influência de dados extremos.
A remoção de outliers pode, sim, melhorar o desempenho do modelo, mas é crucial garantir que essa prática não esteja introduzindo um viés que não reflete a realidade dos dados que o modelo encontrará no mundo real. Em muitos casos, os outliers são parte da realidade dos dados e podem conter informações valiosas, principalmente em séries temporais onde anomalias podem representar eventos significativos.
Mas, se o objetivo é melhorar a precisão do modelo para um caso de uso específico, como a previsão de concentrações de ozônio, essa prática pode ser válida, desde que se entenda que o modelo resultante pode não ser robusto para dados com outliers no futuro.
Uma abordagem alternativa poderia ser a aplicação de técnicas de robustez, como o uso de modelos que são intrinsecamente menos sensíveis a outliers, ou a implementação de métodos de detecção de anomalias que permitam ao modelo lidar com esses dados de forma mais eficaz.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!