Boa tarde Professores, tudo bem?
Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Boa tarde Professores, tudo bem?
Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?
Olá Lucas
Não sou professor da alura mas eu faria o seguinte para identificar quem são outliers:
Calculando o primeiro quartil
q1_renda = dados['renda'].quantile(0.25)
q1_renda
788.0
Calculando o terceiro quartil
q3_renda = dados['renda'].quantile(0.75)
q3_renda
2000.0
Calculando o intervalo interquartil
iiq_renda = q3_renda - q1_renda
iiq_renda
1212.0
Outlier inferior da renda: Q1−1.5XIIQ
outlier_inferior = q1_renda - 1.5 * iiq_renda
outlier_inferior
-1030.0
Outlier superior da renda: Q1+1.5XIIQ
outlier_superior = q3_renda + 1.5 * iiq_renda
outlier_superior
3818.0
Número de pessoas que possuem renda classificadas como outliers
len(dados.query('renda >= 3818')['renda'])
8613Procurei uma função do pandas que já devolve o valor do outilier mas não encontrei, mas sabendo o outilier que no caso da renda são pessoas com renda a partir de R$ 3818,00 você pode realizar querys nos dados para saber o quanto eles estão interferindo no total.