Boa noite Marcos, tudo bem com você?
Você observou muito bem, as medidas centrais têm valores diferentes, o que é comum com dados reais. Vale destacar aqui que média = mediana = moda, são características da distribuição teórica e não devem ser perseguidas literalmente quando trabalhamos com variáveis contínuas em um problema real. É praticamente impossível encontrar uma variável contínua com as medidas centrais iguais.
Dito isso, vamos analisar se os dados de renda tem ou não uma distribuição normal. Começamos mostrando os valores das medidas centrais:
#para ter uma leitura amigável da saída
df = pd.DataFrame({'média':media,
'mediana':mediana,
'moda':moda,
'desvio padrão':desvio_padrao_amostral})
df
Saída:
média | mediana | moda | desvio padrão |
---|
1964.2 | 1146 | 788 | 3139.89 |
Podemos observar que a média e a mediana possuem valores próximos e que o desvio padrão é grande, o que significa que os dados estão dispersos.
Para nos ajudar a analisar a dispersão dos dados vamos montar o gráfico
import seaborn as sns
ax = sns.displot(dataset, kde= True, height=5, aspect=1.5)
Saída:
Percebemos que existe, de fato, uma concentração alta de pessoas ganhando muito pouco — um valor padrão próximo ao do salário mínimo, talvez um pouco maior — e pouquíssimas pessoas ganhando fortunas, altíssimos salários. Esse é um comportamento comum para esse tipo de informação.
Já entendemos o comportamento dos nossos dados, agora vamos relembrar a simetria de uma distribuição normal, que seria algo no molde do gráfico da imagem abaixo:
Com qual imagem você acha que a nossa dispersão é parecida? Conseguimos observar que a dispersão de rendas tem uma distribuição normal assimétrica à direita.
A partir daqui depende da análise estatística que você precisa fazer. Para o problema proposto pelo instrutor Rodrigo, podemos seguir utilizando a norm.ppf
sem problemas. Agora, se por exemplo, você quiser estimar uma regressão linear, você precisará descobrir se existe uma relação linear. Nessa aula Distribuição de frequências é apresentada uma técnica para tentar garantir as características necessárias para a aplicação da técnica de regressão linear.
Como você apontou, em um momento do curso é falado que uma das características importantes da distribuição normal é que:As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor; Não comentando a possibilidade de distribuição assimétrica. Por isso, agradeço por enviar a questão aqui no fórum, iremos complementar o curso com uma atividade com os pontos que conversamos aqui.
Abraço e bons estudos.
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!