Confiabilidade do Teste

Olá,

No problema está pedindo para comparar as rendas dos trabalhadores do RJ e de SP, então, assumi que a Renda destas pessoas deveriam ser > 0, logo, fiz as asmostras da seguinte maneira:

amostra_RJ = dados.query('UF==33 and Renda > 0').sample(n = 500, random_state = 101)['Renda']
amostra_SP = dados.query('UF==35 and Renda > 0').sample(n = 500, random_state = 101)['Renda']

Segui e realizei os testes exatamente da mesma forma que foi apresentado na correção, no entanto, a condição p_valor <= signficancia é Falsa, ou seja, neste caso, aceitamos H0, indo contra o que foi apresentado no teste final.

Posso assumir que essa divergência ocorreu por conta de que a população não se distribui como uma normal? Já que utilizando o código:

from scipy.stats import normaltest

stat_test, p_valor = normaltest(dados['Renda'])

Vemos que p_valor <= significancia = False, ou seja, não se comporta como uma normal.

Se sim, então posso assumir que, se ao ver um teste paramétrico para duas amostras sem a população se distribuir como uma normal, o teste não é confiável?

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP