1
resposta

Dúvida sobre a abordagem adotada na remoção - Data Leakage

Prezados,

Tenho uma dúvida quanto a abordagem utilizada para a remoção dos outliers.

Da maneira que foi feita, não estamos simplesmente retirando dados que são "dificeis de prever" e melhorando o modelo de forma artificial?

Creio que há um viés de pré-processamento, tendo em vista que os dados de teste também foram limpos, e, no meu entendimento, a remoção dos outliers deveria ter sido feita somente nos dados de treino.

1 resposta

Olá, Carlos, tudo bem?

A questão do "data leakage" é realmente importante e deve ser considerada com cuidado. No curso, a abordagem adotada é uma estratégia para entender como o modelo se comporta sem a influência de dados extremos.

A remoção de outliers pode, sim, melhorar o desempenho do modelo, mas é crucial garantir que essa prática não esteja introduzindo um viés que não reflete a realidade dos dados que o modelo encontrará no mundo real. Em muitos casos, os outliers são parte da realidade dos dados e podem conter informações valiosas, principalmente em séries temporais onde anomalias podem representar eventos significativos.

Mas, se o objetivo é melhorar a precisão do modelo para um caso de uso específico, como a previsão de concentrações de ozônio, essa prática pode ser válida, desde que se entenda que o modelo resultante pode não ser robusto para dados com outliers no futuro.

Uma abordagem alternativa poderia ser a aplicação de técnicas de robustez, como o uso de modelos que são intrinsecamente menos sensíveis a outliers, ou a implementação de métodos de detecção de anomalias que permitam ao modelo lidar com esses dados de forma mais eficaz.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!