1
resposta

Análise dos dados no boxplot

Segundo o professor, os dados que ficam fora do boxplot são outliers. Como eu posso criar um dataframe que me mostre somente esses dados? Eu necessitaria que tivesse somente os valores abaixo e acima dos 1° e 3° quartis respectivamente?

1 resposta

Olá Pedro, tudo certo? Adorei a sua ideia! Lembrando que os outliers do boxplot são aqueles que estão depois dos "bigodes" que medem 1,5 do tamanho da caixa do boxplot, tanto para mais quanto para menos, podemos chamar essa medida como amplitude interquartílica, então vou deixar aqui as duas funções as que tiram depois da amplitude interquartílica e depois do 1° e 3° quartis.

def acharOutliers(df):

   #definindo quartil
   q1=df.quantile(0.25)
   q3=df.quantile(0.75)

  #definindo amplitude interquartílica
   AI=q3-q1

   #trazendo os valores abaixo ou acima da amplitude interquartílica
   outliers = df[((df<(q1-1.5*AI)) | (df>(q3+1.5*AI)))]

   return outliers.dropna()
def depoisQuartis(df):

    #definindo quartil
   q1=df.quantile(0.25)
   q3=df.quantile(0.75)

   #trazendo os valores abaixo ou acima dos quartis
   DQ = df[((df<q1) | (df>q3))]


   return DQ.dropna()
#Valores para as colunas  "Area" e "Dist_Praia".
acharOutliers(dados[["Area",    "Dist_Praia"]])
depoisQuartis(dados[["Area",    "Dist_Praia"]])

Espero ter ajudado.

Abraços

Ana Duarte

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software