Boa tarde Professores, tudo bem?
Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?
Boa tarde Professores, tudo bem?
Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?
Olá Lucas
Não sou professor da alura mas eu faria o seguinte para identificar quem são outliers:
Calculando o primeiro quartil
q1_renda = dados['renda'].quantile(0.25)
q1_renda
788.0
Calculando o terceiro quartil
q3_renda = dados['renda'].quantile(0.75)
q3_renda
2000.0
Calculando o intervalo interquartil
iiq_renda = q3_renda - q1_renda
iiq_renda
1212.0
Outlier inferior da renda: Q1−1.5XIIQ
outlier_inferior = q1_renda - 1.5 * iiq_renda
outlier_inferior
-1030.0
Outlier superior da renda: Q1+1.5XIIQ
outlier_superior = q3_renda + 1.5 * iiq_renda
outlier_superior
3818.0
Número de pessoas que possuem renda classificadas como outliers
len(dados.query('renda >= 3818')['renda'])
8613
Procurei uma função do pandas que já devolve o valor do outilier mas não encontrei, mas sabendo o outilier que no caso da renda são pessoas com renda a partir de R$ 3818,00 você pode realizar querys nos dados para saber o quanto eles estão interferindo no total.