Segundo o professor, os dados que ficam fora do boxplot são outliers. Como eu posso criar um dataframe que me mostre somente esses dados? Eu necessitaria que tivesse somente os valores abaixo e acima dos 1° e 3° quartis respectivamente?
Segundo o professor, os dados que ficam fora do boxplot são outliers. Como eu posso criar um dataframe que me mostre somente esses dados? Eu necessitaria que tivesse somente os valores abaixo e acima dos 1° e 3° quartis respectivamente?
Olá Pedro, tudo certo? Adorei a sua ideia! Lembrando que os outliers do boxplot são aqueles que estão depois dos "bigodes" que medem 1,5 do tamanho da caixa do boxplot, tanto para mais quanto para menos, podemos chamar essa medida como amplitude interquartílica, então vou deixar aqui as duas funções as que tiram depois da amplitude interquartílica e depois do 1° e 3° quartis.
def acharOutliers(df):
#definindo quartil
q1=df.quantile(0.25)
q3=df.quantile(0.75)
#definindo amplitude interquartílica
AI=q3-q1
#trazendo os valores abaixo ou acima da amplitude interquartílica
outliers = df[((df<(q1-1.5*AI)) | (df>(q3+1.5*AI)))]
return outliers.dropna()
def depoisQuartis(df):
#definindo quartil
q1=df.quantile(0.25)
q3=df.quantile(0.75)
#trazendo os valores abaixo ou acima dos quartis
DQ = df[((df<q1) | (df>q3))]
return DQ.dropna()
#Valores para as colunas "Area" e "Dist_Praia".
acharOutliers(dados[["Area", "Dist_Praia"]])
depoisQuartis(dados[["Area", "Dist_Praia"]])
Espero ter ajudado.
Abraços
Ana Duarte