[Dúvida] E para esse mesmo cenário, mas com amostras grandes?

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

3
respostas

Referente ao curso Data Science: testando hipóteses, no capítulo Testes para duas amostras e atividade Utilizando amostras pareadas

por MARCELLUS NASCIMENTO

| 80.9k xp | 7 posts

Instrutor

Pessoal, estou em uma situação do meu cotidiano bem parecida com essa. Quero fazer o teste para comparar duas amostras após um determinado evento e saber se evento teve influência direto nos resultados após o seu acontecendo. Só que o tamanho da minha amostra é relativamente grande, com mais 200 observações e elas não são pareadas.

Qual seria o teste estatístico adequado para isso?

3 respostas

por Larissa Dubiella

| 1349.2k xp | 2816 posts

08/07/2024

Olá, Marcellus! Como vai?

Com base na situação que você descreveu, o teste estatístico mais adequado para o seu caso seria o Teste t de Student para amostras independentes. Vou explicar por que e como você pode proceder:

Por que o Teste t de Student para amostras independentes?

Você tem duas amostras (antes e depois de um evento)
As amostras são grandes (mais de 200 observações)
As amostras não são pareadas (ou seja, não são necessariamente as mesmas unidades observadas antes e depois)
Você quer comparar se há uma diferença significativa entre as médias dos dois grupos

Pressupostos do teste:

As amostras devem ser independentes
Os dados em cada grupo devem seguir uma distribuição aproximadamente normal
As variâncias dos dois grupos devem ser aproximadamente iguais (homocedasticidade)

Você pode aprender mais sobre esse teste no curso Estatística com Python: testes de hipóteses.

Espero ter ajudado. Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

por MARCELLUS NASCIMENTO

| 80.9k xp | 7 posts

Instrutor

09/07/2024

Oi Larissa! Boa noite! Tudo bem?

Larissa, sua resposta me ajudou bastante a clarear algumas dúvidas e dar direcionamentos, mas a medida que vou avançando, vão surgindo algumas dúvidas referentes ao teste e como posso estrutura-lo, sabe?

Te dando um pouco de contexto de melhor, tenho a base de dados que possui os seguintes atributos: "id", "agente", "data", "tempo de primeira resposta". Essa base compreendem dados tempo de primeira respostas de tickets de um time de atendimento, desde o inicio do ano 01/01, até o final do semestre 30/06.

Exatamente a partir do dia 21/03, realizamos a implantação de uma ferramenta que distribui tickets automaticamente entre os agentes do time, acabando com o processo de distribuição manual que era feito anteriormente. Em cada mês houve uma quantidade de tickets atendidos diferentes, bem como a quantidade de tickets antes e após implantação é diferente. Ah, os agentes que atenderam antes e depois são os mesmos, mas cada um com quantidades diferentes.

Qual meu objetivo: descobrir se implementação dessa ferramenta contribuiu para a diminuição do tempo de primeira resposta de atendimento dos tickets.

Um outro fato sobre a amostra, é que ela não segue uma distribuição normal. Fiz os testes de normalidade com significância de 0,05 e o p_valor da menor que essa significância e observando em um histograma conseguimos verificar isso também.

A partir dai é que começam as dúvidas de como estruturar esse teste e qual caminho devo seguir, sabe? Por exemplo:

Eu devo seguir com essa base de dados como ela está ou tentar transforma-la em uma distribuição normal?
Se eu seguir da forma em que estar, me surgiu a seguinte duvida a respeito das possibilidades:
- Eu faço o teste considerando como duas bases independentes e para analise os valores dos tempos de primeira resposta de cada ticket? Se sim, as amostras antes da data de implementação da ferramenta e após a data devem ter o mesmo tamanho e escolhidas aleatoriamente?
- Ou, eu faço o teste considerando duas amostras pareadas? Por exemplo, eu agrupo os tempos de primeira resposta por agente e assim tenho tempo média de primeira resposta de cada agente A, B e C antes do uso da ferramenta e após o uso da ferramenta. Dai para fazer isso, o conjunto de dados antes e depois devem ser de tamanhos iguais também e aleatorios? E também para calcular as médias de cada agente antes e depois, deve ter a mesma quantidade de tempos para cada agente? (pergunto isso porque cada agente atende uma quantidade diferente de tickets).
A terceira dúvida, é se eu devo transformar esses dados em uma distribuição normal. Caso eu transforme, quais possibilidades eu sigo? Bases independentes ou pareadas? (basicamente as mesmas duvidas da situação anterior, mas agora os dados seguindo uma distribuição normal).

Eu realmente estou com bastante duvida nesse direcionamento. Se você ou alguém da escola conseguir me direcionar, vai me ajudar muuuuuitooo.

por Larissa Dubiella

| 1349.2k xp | 2816 posts

11/07/2024

Oi Marcellus! Estou bem, obrigada por perguntar :)

É super natural ter várias dúvidas surgindo nesse processo. Além de executar os testes em si, é necessário tomar muitas decisões! Essa parte costuma ser a mais desafiadora, mesmo.

Entendi melhor sua situação com o contexto. Respondendo às suas perguntas:

Em relação a manter o dados como estão ou transformar em uma distribuição normal: você pode manter os dados como estão. Não tem problema que seus dados não tenham uma distribuição normal - basta utilizar testes não paramétricos, que são apropriados para essa situação. Forçar a normalização pode causar perda de informações e tornar os resultados mais difíceis de interpretar quando aplicados à realidade.
Considerando que você quer comparar o tempo de primeira resposta antes e depois da implementação da ferramenta, e que os mesmos agentes estão presentes em ambos os períodos (mas com quantidades diferentes de tickets), sugiro a seguinte abordagem:
- Use um teste não-paramétrico para amostras independentes, como o teste de Mann-Whitney U
- Considere todos os tempos de resposta antes da implementação como um grupo e todos os tempos após a implementação como outro grupo.
- Não é necessário que as amostras tenham o mesmo tamanho para este teste.
- Não é necessário agrupar por agente, pois queremos ver o efeito geral da implementação.
Já foi respondida na primeira pergunta. Não é necessário fazer a transformação.

Após estabelecer h0 e h1, aplicar o teste e interpretar o p-valor, você também pode gerar algumas visualizações e estatísticas descritivas para comparar os grupos, para complementar a análise. Gerar boxplots para visualizar a distribuição dos dois grupos, por exemplo, pode ser valioso.

Lembre-se, o teste estatístico vai te dizer se há uma diferença significativa, mas não necessariamente se essa diferença é devido à implementação da ferramenta. Para fortalecer sua conclusão, você pode considerar também outros fatores que possam ter influenciado os tempos de resposta durante esse período. O conhecimento do contexto é tão importante quanto a aplicação correta dos testes.

Espero ter ajudado, Marcellus :)

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP