1
resposta

[Dúvida] Quando considerar um registro realmente um outlier.

Num cenário que uma ong tem um conjunto de dados sobre doações. E que pelo calculo do diagrama em caixa o valor máximo seja de 90 e existe um registro que o doador fez uma doação de 2000 (comprovado). O correto é eu considerar este valor um outlier ou não?

1 resposta

Explicação

No contexto de uma análise estatística exploratória, como a construção de boxplots, valores como o que você mencionou — uma doação de 2000, quando o valor máximo estimado pelo boxplot é 90 — são, sim, considerados outliers (valores discrepantes).

Se a doação de 2000 está muito além do limite superior (como é o caso), ela será sinalizada como um outlier estatístico, porém isso não significa que seja uma fraude, apenas é algo diferente padrão observado na maioria dos dados. Essa última definição "diferente do padrão" é exatamente a definição de outlier (ou seja, algo que é diferente)

Interpretando Boxplot

Vale dizer que o boxplot nos dá uma intuição de como os dados se comportam baseando-se nos quartis (divisões ordenadas dos dados), porém em casos onde os dados tem grupos de valores bem distribuidos nas pontas e no centro isso pode gerar vários outliers.

Ampliação da ideia

Além do que foi dito vale dizer que os outliers também podem ser frutos da natureza dos dados

Tirando a confusão

É super importante ententer que outliers não são em todos os casos coisas negativas, apenas nos ajudam a entender como os dados se comportam e dão intuição comportamentos que afastam do esperado