Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Remoção de outliers com o intervalo de confiança

Gostaria de tirar uma dúvida sobre a remoção de outliers com base no intervalo de confiança dos valores previstos (yhat).

Minha dúvida é se essa abordagem é estatisticamente adequada, considerando que o intervalo de confiança foi gerado a partir de um modelo treinado com todos os dados, inclusive aqueles que seriam considerados outliers. Isso me parece gerar um certo viés.

Por exemplo, se calcularmos o erro absoluto (|y - yhat|) e simplesmente removermos os pontos com maior erro para, em seguida, reajustar o modelo, certamente as métricas irão melhorar. No entanto, essa melhoria não viria de um real aumento da capacidade preditiva do modelo, mas sim da exclusão dos casos que ele não conseguiu explicar bem.

Dito isso, minha pergunta é: não seria mais adequado utilizar uma técnica de detecção de outliers independente do modelo, como o método do IQR ou algum outro procedimento que identifique outliers antes do treinamento, evitando esse possível viés?

2 respostas
solução!

Olá Jeangelis, espero que esteja bem.

Explicando viés

De fato você tem um ponto! Na prática, existe um risco de viés sim. Se você treina o modelo com todos os dados, incluindo os outliers, e depois usa os intervalos de confiança derivados do próprio modelo para identificar e remover pontos com erro elevado, você está se baseando em algo que já foi "contaminado".

Soluções e trade-offs

  • IQR

    • ( + ) Simples e rápido de aplicar
    • ( - ) Pode falhar em distribuições assimétricas e com dimensões
  • Normalização/Padronização

    • ( + ) Legal para distribuições conhecidas (ou estimações normais)
    • ( - ) Sensível a outliers extremos,
  • Modelos baseados em densidade ou estrutura

    • ( + ) Capturam padrões complexos
    • ( - ) Parâmetros difíceis de ajustar

Conclusão

oOrtanto, quando pensamos em mitigação de erros, sobreajuste e etc, todos os métodos tem seu viés, por isso é sempre adqueado (quando possível) realizar uma validaçlão cruzada com uma amostra OOS (Out of Sample) fora dos dados e corretamente escolhida para controle dos dados.

As vezes o tamanho do meu dataset ou complexidade do modelo de previsão não premite uma validação cruzada, mas podemos mitigar com técnicas de amostragem e verificação recorrente para fugir do drift de dados

Olá Breno! Muito obrigado pela resposta!

Entendi o ponto sobre os riscos de viés em qualquer abordagem de remoção de outliers e a importância de usar validação cruzada sempre que possível. Também gostei muito da comparação entre os métodos que você fez.

Obrigado novamente pela troca!