Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Dúvida] O que realmente é mediana? e ela pode ser afetada por outliers?

Uma pesquisa no google retornou a seguinte explicação "A Mediana nos diz que a quantidade de valores é a mesma tanto antes quanto depois de sua posição. A vantagem da Mediana sobre a Média é que a Mediana pode nos fornecer um valor típico do conjunto de dados porque ela não é afetada por valores extremos." do site educa.ibge.gov.br.

Num curso de Data Science aqui da Alura, o professor explicou algo parecido, que a mediana é quem divide os dados no meio, ou seja, divide metade dos dados pra cima, e metade dos dados pra baixo. Ele também disse que a mediana nem sempre vai ser proximo da média

Com essas explicações citadas, eu ainda fico na duvida sobre o que realmente é a mediana.

Por isso tenho algumas perguntas que gostaria de fazer:

1 - O que é mediana ?

2 - Por que nem sempre a mediana vai ser proximo da média?

3 - Como a mediana pode ser usada em Data Science ?

4 - Por que a mediana não é afetada por valores extremos?

5 - Se a mediana não é afetada por valores extremos, isso significa que ela nao é afetada por outliers em um DataFrame?

2 respostas
solução!

Oi, William! Tudo bem por aí?

Vamos lá, vou tentar esclarecer de uma vez por todas quem é essa Sra. Mediana, uma medida de tendência central que nos ajuda a conhecer características de algum conjunto de dados.

Ambas as definições que você trouxe estão corretas.

Antes de seguirmos em frente, tenha em mente que não é necessário fazer nenhum cálculo para descobrir a mediana!

Essa medida vai ser o valor que separa os dados em duas fatias iguais. Imagine um conjunto de 11 números, sejam eles quais forem. Ordene esses números por ordem crescente. A mediana sempre será o valor que está na sexta posição dessa ordem.

Seja:

1
2
3
4
5
6 #aqui está a mediana, pois temos 5 valores antes e 5 valores depois.
7
8
9
10
11

ou

0.0025
0.1
5
27.5
150
753 #aqui está a mediana, pois temos 5 valores antes e 5 valores depois
1049.7
5693.32
9875
11230.8
304581

A mediana representa o valor que separa o conjunto de dados em duas partes do mesmo tamanho. Tem a ver com o tamanho do conjunto de dados, e não necessariamente com os valores que o compõem.

Já a média aritmética é a medida que é a soma de todos os números do conjunto dividido pela quantidade de valores nesse conjunto. Valores extremos/outliers distorcem o resultado da média. Já a mediana, por ter essa característica de mostrar qual valor que está lá no meio, não é atingida pelas extremidades em nenhuma circunstância. Acredito que, aqui, respondi suas perguntas 2, 4 e 5 :)

Em Data Science, a mediana é uma medida importante por sua característica de representar muito bem qual é a tendência central de um conjunto de dados. Pode ser importante na análise exploratória de dados, comparação de grupos ou treinos de modelos estatísticos, por exemplo.

Porém, um ponto de atenção: na estatística, nenhuma medida é importante sozinha. É necessário ter contexto. Apenas uma mediana ou apenas uma média não nos diz nada - é só um número. A partir da relação entre medidas, visualizações e conhecimento da origem do conjunto de dados é que podemos extrair informações que sejam significativas.

Espero ter ajudado a sanar essa dúvida, William! Fico à disposição caso queira conversar melhor sobre esse ponto.

Abraços.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Obrigado Larissa por esclarecer sobre a mediana. Consegui entender melhor agora.