Diferenças entre os testes de hipóteses aplicados | Data Visualization: explorando com Seaborn

Neste vídeo, ao se realizar o teste de hipóteses assumindo (H0 a taxa de gorjeta é igual entre os dois grupos) e (H0 a taxa de gorjeta não é igual entre os dois grupos), seguindo o princípio de que H0 sempre denota a igualdade. Não é levado em conta o fato de que apesar destas amostras serem do mesmo dataset, elas não estão pareadas, elas são independentes. Logo, quando é utilizado o

from scipy.stats import ranksums

sim_sobremesa = gorjetas.query("sobremesa == 'Sim'").porcentagem

nao_sobremesa = gorjetas.query("sobremesa == 'Não'").porcentagem

print(ranksums(sim_sobremesa, nao_sobremesa))

O teste estatístico que se utiliza, por default é o Wilcoxon. E isso seria inadequado para análises dessas amostras. Uma vez que elas são independentes, afinal o cliente X não depende do Y para ter pedido uma sobremesa, de mesma forma que não está sendo comparado se o cliente X foi num dia 1, e no dia 2 e pediu a sobremesa. Nesse caso, se aplicaria Mann-Whitney, que testa se a média de duas amostras independentes de uma mesma população são iguais.

from scipy.stats import mannwhitneyu

print(mannwhitneyu(sim_sobremesa, nao_sobremesa))

Em relação aos resultados gerados. Apesar de ambos serem similares, dado a execução dos cálculos estatísticos, é válido notar que é sempre preferível seguir pelo método que seria mais adequado as amostras utilizadas.

RanksumsResult(statistic=-0.6331073145314825, pvalue=0.5266635660124415)
MannwhitneyuResult(statistic=6682.5, pvalue=0.5261442011801832)

Um abraço a todos, e bons estudos!