Queria saber como a mediana deu 3.5 (tentei fazer manualmente e a mediana era 2.75)
Queria saber como a mediana deu 3.5 (tentei fazer manualmente e a mediana era 2.75)
Olá, Davi! Tudo bom? Espero que sim!
A mediana é uma medida que divide o seu dataset ordenado em metades, então 50% dos valores do teu dataset devem estar abaixo da mediana.
Então vamos lá para o cálculo manual.
Primeiro precisamos da quantidade dos dados, poderíamos somar todos esses valores do value_counts() ou o próprio shape do dataset e encontraríamos o valor 100.836
. Como é um número par, a mediana é a soma dos termos que estão ao meio dessa lista de dados ordenada. E nesse caso seria 50418
e 50419
.
Então a soma desses dois dados nessas posições divididas por dois é a mediana.
mediana = sum(notas['nota'].sort_values().iloc[50418 : 50419 + 1]) / 2
mediana
Resultado: 3.5
No código acima eu utilizei o método soft_values()
para organizar os dados em ordem ascendente, depois utilizei o método .iloc()
para encontrar os valores nas posições 50418 e 50419, e depois os somei e dividi por 2, como propõe a definição de mediana.
E esse valor corresponde ao valor encontrado pela mediana do Pandas.
Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!
Entendi agora, obrigado Marcus