Oii, Adenilson! Tudo bem?
Agradeço por compartilhar a sua observação que é bastante pertinente.
No teste t para uma amostra, comparamos a média amostral com um valor específico definido na hipótese nula. Pegando o contexto do exercício, a hipótese nula (H0), é que a média de compressão do novo software é igual a 20%. Então, o valor a ser usado no teste t deve ser 20, e não a média amostral.
O código da resolução:
from scipy.stats import ttest_1samp
# Definindo a hipótese nula
valor_hipotese_nula = 20
# Calculando o teste t
estatistica_t, p_valor = ttest_1samp(df_techsafe['porcentagem_compressao'], valor_hipotese_nula, alternative='greater')
print(f'Estatística t: {estatistica_t}')
print(f'Valor-p: {p_valor}')
Neste código, valor_hipotese_nula
é definido como 20, que é o valor com o qual estamos comparando a média amostral. A Estatística t indica quantos desvios padrão a média da amostra está afastada da média hipotética (20%). E Valor-p é a probabilidade de observarmos uma média amostral tão extrema quanto a observada (ou mais extrema) se a hipótese nula for verdadeira.
Caso o valor-p
for menor que o nível de significância (por exemplo, 0.05 para um nível de confiança de 95%), rejeitamos a hipótese nula. Isso indicaria que há evidências suficientes para afirmar que a média de compressão do novo software é superior a 20%.
Espero ter esclarecido sua dúvida.
Bons estudos, Adenilson!