3
respostas

Mesmo minha amostra não seguindo distribuição normal posso aplicar o Z Test?

Separei uma amostra de 1.000 filmes de um catálogo de aprox. 30.000 e extraí a quantidade de palavras presentes na descrição de cada um dos 1.000 filmes.

Desta quantidade de palavras tirei a média de palavras por filme. Gostaria de generalizar esta média "para todos os filmes, mesmo os que não estão na amostra", ou seja, gostaria de saber o "Intervalo de confiança da média".

Para isso utilizei o "Z Test" e obtive um intervalo de valores para esta média generalizada.

Porém fiz o teste de normalidade com os dados e percebi que a distribição de palavras por filme não segue uma distribuição normal.

Minha dúvida é: mesmo assim (minha amostra não seguindo a distribuição normal) ainda posso utilizar o Z Test para obter um intervalo de confiança ?

3 respostas

Oi, Daniel! Como você está?

Sua dúvida é muito importante, e sua observação está correta. O Z Test é geralmente aplicado quando a distribuição dos dados é normal ou quando o tamanho da amostra é grande o suficiente (normalmente, maior que 30) para que o Teorema do Limite Central entre em ação, garantindo que a distribuição das médias amostrais seja aproximadamente normal.

Uma alternativa é o uso do t-test, que está mais apto a lidar com amostras que não tem distribuição normal. Porém, em amostras grandes como a sua, o resultado do z-test e t-test tende a ser muito aproximado

Outra opção é recorrer a testes não-paramétricos.

A escolha do teste estatístico depende de vários fatores, incluindo o tamanho da amostra, a distribuição dos dados e a natureza da sua pergunta de pesquisa. É uma decisão que deve ser tomada cuidadosamente.

Espero ter colaborado com seu raciocínio.

Abraços.

Olá Larissa

Ajudou muito, obrigado!

Mais uma dúvida: Qual teste não paramétrico eu poderia utilizar ao invés do "Z test" para obter um "Intervalo de confiança da média"?

Grato

Oi de novo, Daniel!

Desculpe pela demora em te retornar.

Talvez você pode considerar o uso do intervalo de confiança bootstrap.

O método de bootstrap é uma abordagem não paramétrica que envolve a reamostragem dos seus dados com substituição.

O intervalo de confiança bootstrap é mais flexível em relação às suposições sobre a distribuição dos dados, sendo uma boa escolha quando você não pode assumir normalidade. Embora o bootstrap seja robusto, é sempre importante considerar a natureza dos seus dados e se o método se adequa à sua pesquisa.

Você pode utilizar a biblioteca scipy.stats em seu projeto:

Grande abraço, Daniel!