Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Outliers por grupo

Bom dia! Semelhante ao "exercício" sugerido pelo professor ao final do vídeo, para fins de aprendizagem, iniciei uma análise em uma tabela de um banco de dados com histórico de preços de compras de produtos.

Nesta tabela eu tenho basicamente: ID do produto = Que é a identificação do produto Valor do produto = Que foi o valor pago na compra Data da compra = Que foi a data onde foi realizada a compra Documento = Que foi o documento de compra

Minha pergunta é: Sabendo que eu tenho N produtos distintos, como eu poderia identificar os outliers?

Obrigado pessoal!

2 respostas
solução!

Olá Marcelo, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Você pode agrupar as vendas através dos códigos do produto. Buscando duas informações:

  • Contagem de vendas por produto
  • Soma de venda de cada produto

Você terá duas colunas de valores no qual pode criar um boxplot e checar se há pontos isolados. Identificando se há produtos que vendem em pouca quantidade ou grande quantidade se comparado aos outros. Ou se o há produtos com faturamento maior ou menor em comparação com a maioria dos produtos.

Pode fazer agrupamento também em relação a data, agrupando as vendas por mês, por semana, por dia, ou outra quantidade de tempo. Sempre fazendo uso do boxplot, uma vez que ele mostra facilmente os pontos fora do padrão.

Para ser considerado um outlier, geralmente utilizamos pontos abaixo de 1ºQ - 1.5 x IIQ e acima de 3ºQ + 1.5 x IIQ, onde IIQ é o intervalo interquartílico, 1ºQ é o primeiro quartil, e 3ºQ é o terceiro quartil.

Bons estudos!

Obrigado João!