Outliers

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

por LUCAS SANTIAGO CALDEIRA

| 59.1k xp | 16 posts

Boa tarde Professores, tudo bem?

Como eu faço para separar somente os dados que estão no grupo de outliers? Queria saber o quanto eles representam sobre o total também?

1 resposta

por Marcos Galvão

| 175.4k xp | 40 posts

24/12/2020

Olá Lucas

Não sou professor da alura mas eu faria o seguinte para identificar quem são outliers:

Calculando o primeiro quartil
q1_renda = dados['renda'].quantile(0.25)
q1_renda
788.0

Calculando o terceiro quartil
q3_renda = dados['renda'].quantile(0.75)
q3_renda
2000.0

Calculando o intervalo interquartil
iiq_renda = q3_renda - q1_renda
iiq_renda
1212.0

Outlier inferior da renda:  Q1−1.5XIIQ
outlier_inferior = q1_renda - 1.5 * iiq_renda
outlier_inferior
-1030.0

Outlier superior da renda:  Q1+1.5XIIQ
outlier_superior = q3_renda + 1.5 * iiq_renda
outlier_superior
3818.0


Número de pessoas que possuem renda classificadas como outliers
len(dados.query('renda >= 3818')['renda'])
8613

Procurei uma função do pandas que já devolve o valor do outilier mas não encontrei, mas sabendo o outilier que no caso da renda são pessoas com renda a partir de R$ 3818,00 você pode realizar querys nos dados para saber o quanto eles estão interferindo no total.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP