1
resposta

Outliers

Boa tarde Professores, tudo bem?

Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?

1 resposta

Olá Lucas

Não sou professor da alura mas eu faria o seguinte para identificar quem são outliers:

Calculando o primeiro quartil
q1_renda = dados['renda'].quantile(0.25)
q1_renda
788.0

Calculando o terceiro quartil
q3_renda = dados['renda'].quantile(0.75)
q3_renda
2000.0

Calculando o intervalo interquartil
iiq_renda = q3_renda - q1_renda
iiq_renda
1212.0

Outlier inferior da renda:  Q1−1.5XIIQ
outlier_inferior = q1_renda - 1.5 * iiq_renda
outlier_inferior
-1030.0

Outlier superior da renda:  Q1+1.5XIIQ
outlier_superior = q3_renda + 1.5 * iiq_renda
outlier_superior
3818.0


Número de pessoas que possuem renda classificadas como outliers
len(dados.query('renda >= 3818')['renda'])
8613

Procurei uma função do pandas que já devolve o valor do outilier mas não encontrei, mas sabendo o outilier que no caso da renda são pessoas com renda a partir de R$ 3818,00 você pode realizar querys nos dados para saber o quanto eles estão interferindo no total.