Mesmo minha amostra não seguindo distribuição normal posso aplicar o Z Test?

3
respostas

Referente ao curso Data Science: testes estatísticos com Python, no capítulo Testes de uma amostra e atividade Intervalo de confiança da média com t e ztest

por daniel pereira mendonça dos santos

| 160.2k xp | 4 posts

Separei uma amostra de 1.000 filmes de um catálogo de aprox. 30.000 e extraí a quantidade de palavras presentes na descrição de cada um dos 1.000 filmes.

Desta quantidade de palavras tirei a média de palavras por filme. Gostaria de generalizar esta média "para todos os filmes, mesmo os que não estão na amostra", ou seja, gostaria de saber o "Intervalo de confiança da média".

Para isso utilizei o "Z Test" e obtive um intervalo de valores para esta média generalizada.

Porém fiz o teste de normalidade com os dados e percebi que a distribição de palavras por filme não segue uma distribuição normal.

Minha dúvida é: mesmo assim (minha amostra não seguindo a distribuição normal) ainda posso utilizar o Z Test para obter um intervalo de confiança ?

3 respostas

por Larissa Dubiella

| 1349.2k xp | 2816 posts

20/09/2023

Oi, Daniel! Como você está?

Sua dúvida é muito importante, e sua observação está correta. O Z Test é geralmente aplicado quando a distribuição dos dados é normal ou quando o tamanho da amostra é grande o suficiente (normalmente, maior que 30) para que o Teorema do Limite Central entre em ação, garantindo que a distribuição das médias amostrais seja aproximadamente normal.

Uma alternativa é o uso do t-test, que está mais apto a lidar com amostras que não tem distribuição normal. Porém, em amostras grandes como a sua, o resultado do z-test e t-test tende a ser muito aproximado

Outra opção é recorrer a testes não-paramétricos.

A escolha do teste estatístico depende de vários fatores, incluindo o tamanho da amostra, a distribuição dos dados e a natureza da sua pergunta de pesquisa. É uma decisão que deve ser tomada cuidadosamente.

Espero ter colaborado com seu raciocínio.

Abraços.

por daniel pereira mendonça dos santos

| 160.2k xp | 4 posts

20/09/2023

Olá Larissa

Ajudou muito, obrigado!

Mais uma dúvida: Qual teste não paramétrico eu poderia utilizar ao invés do "Z test" para obter um "Intervalo de confiança da média"?

Grato

por Larissa Dubiella

| 1349.2k xp | 2816 posts

03/10/2023

Oi de novo, Daniel!

Desculpe pela demora em te retornar.

Talvez você pode considerar o uso do intervalo de confiança bootstrap.

O método de bootstrap é uma abordagem não paramétrica que envolve a reamostragem dos seus dados com substituição.

O intervalo de confiança bootstrap é mais flexível em relação às suposições sobre a distribuição dos dados, sendo uma boa escolha quando você não pode assumir normalidade. Embora o bootstrap seja robusto, é sempre importante considerar a natureza dos seus dados e se o método se adequa à sua pesquisa.

Você pode utilizar a biblioteca scipy.stats em seu projeto:

scipy.stats.bootstrap

Grande abraço, Daniel!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema