2
respostas

Dúvida ranksums()

Fala galera, beleza?

Queria entender melhor os valores que resultam o ranksums().

No exercício fala: O p-value representa a probabilidade daquela amostra ter acontecido dentro da população. Se a chance é pequena, geralmente p-value < 0,05, representa que um evento muito raro aconteceu, então optamos por descartar a hipótese nula, e dizer que ela pode não ser verdade.

Hipótese Nula = A distribuição da taxa da gorjeta é a mesma nos dois grupos.

Hipótese Alternativa = A distribuição da taxa da gorjeta não é a mesma nos dois grupos.

Eu estou comparando

sobremesa = dados.query('sobremesa == "Sim"').porcentagem
 sem_sobremesa = dados.query('sobremesa == "Não"').porcentagem
 ranksums(sobremesa,sem_sobremesa)

Resultado:

RanksumsResult(statistic=-0.6331073145314825, pvalue=0.5266635660124415)

Primeira dúvida, na função se eu inverto os valores a única coisa que muda é o sinal do statistic.

O que representa esse statistic?

Segunda dúvida, já que não fez diferença eu inverter os campos das amostras, como sei que estou querendo saber se sobremesa ou sem_sobremesa é um evento raro?

Li alguns artigos mas ainda não consegui pegar bem.

Poderiam em ajudar?

2 respostas

Acho que entendi, eu quero saber a razão entre dos total da conta de quem comeu sobremesa e que não comeu, correto?

Quanto maior a razão, ou seja, próximo de 1, os número são iguais.

Quanto menor a razão, menor será a proporção dele, e indica que não são valores iguais.

É isso?

Olá Romeu,

É isso mesmo, mudar a ordem não afeta o p-value porque estamos comparando as duas amostras para identificar se elas vem da mesma distribuição ou não, se podemos considerar se existe ou não diferença significativa entre elas. Já o statistic muda porque ele indica a diferença de tamanho entre as amostras.

De forma super resumida o p-value tenta responder se A = B (por isso a ordem não importa), já o statistic tenta indicar a diferença de tamanho A > B (por isso a ordem importa).

Esse conteúdo de testes de hipóteses e comparações estatísticas já é bem avançado, se tiver mais interesse tem uma sequência de cursos focados em estatística, onde no terceiro curso (Estatística com Python parte 3: Testes de hipóteses) você pode entender mais sobre esses testes.