Olá,
No problema está pedindo para comparar as rendas dos trabalhadores do RJ e de SP, então, assumi que a Renda destas pessoas deveriam ser > 0, logo, fiz as asmostras da seguinte maneira:
amostra_RJ = dados.query('UF==33 and Renda > 0').sample(n = 500, random_state = 101)['Renda']
amostra_SP = dados.query('UF==35 and Renda > 0').sample(n = 500, random_state = 101)['Renda']
Segui e realizei os testes exatamente da mesma forma que foi apresentado na correção, no entanto, a condição p_valor <= signficancia é Falsa, ou seja, neste caso, aceitamos H0, indo contra o que foi apresentado no teste final.
Posso assumir que essa divergência ocorreu por conta de que a população não se distribui como uma normal? Já que utilizando o código:
from scipy.stats import normaltest
stat_test, p_valor = normaltest(dados['Renda'])
Vemos que p_valor <= significancia = False, ou seja, não se comporta como uma normal.
Se sim, então posso assumir que, se ao ver um teste paramétrico para duas amostras sem a população se distribuir como uma normal, o teste não é confiável?