Oi Larissa! Boa noite! Tudo bem?
Larissa, sua resposta me ajudou bastante a clarear algumas dúvidas e dar direcionamentos, mas a medida que vou avançando, vão surgindo algumas dúvidas referentes ao teste e como posso estrutura-lo, sabe?
Te dando um pouco de contexto de melhor, tenho a base de dados que possui os seguintes atributos: "id", "agente", "data", "tempo de primeira resposta". Essa base compreendem dados tempo de primeira respostas de tickets de um time de atendimento, desde o inicio do ano 01/01, até o final do semestre 30/06.
Exatamente a partir do dia 21/03, realizamos a implantação de uma ferramenta que distribui tickets automaticamente entre os agentes do time, acabando com o processo de distribuição manual que era feito anteriormente. Em cada mês houve uma quantidade de tickets atendidos diferentes, bem como a quantidade de tickets antes e após implantação é diferente. Ah, os agentes que atenderam antes e depois são os mesmos, mas cada um com quantidades diferentes.
Qual meu objetivo: descobrir se implementação dessa ferramenta contribuiu para a diminuição do tempo de primeira resposta de atendimento dos tickets.
Um outro fato sobre a amostra, é que ela não segue uma distribuição normal. Fiz os testes de normalidade com significância de 0,05 e o p_valor da menor que essa significância e observando em um histograma conseguimos verificar isso também.
A partir dai é que começam as dúvidas de como estruturar esse teste e qual caminho devo seguir, sabe? Por exemplo:
Eu devo seguir com essa base de dados como ela está ou tentar transforma-la em uma distribuição normal?
Se eu seguir da forma em que estar, me surgiu a seguinte duvida a respeito das possibilidades:
- Eu faço o teste considerando como duas bases independentes e para analise os valores dos tempos de primeira resposta de cada ticket? Se sim, as amostras antes da data de implementação da ferramenta e após a data devem ter o mesmo tamanho e escolhidas aleatoriamente?
- Ou, eu faço o teste considerando duas amostras pareadas? Por exemplo, eu agrupo os tempos de primeira resposta por agente e assim tenho tempo média de primeira resposta de cada agente A, B e C antes do uso da ferramenta e após o uso da ferramenta. Dai para fazer isso, o conjunto de dados antes e depois devem ser de tamanhos iguais também e aleatorios? E também para calcular as médias de cada agente antes e depois, deve ter a mesma quantidade de tempos para cada agente? (pergunto isso porque cada agente atende uma quantidade diferente de tickets).
A terceira dúvida, é se eu devo transformar esses dados em uma distribuição normal. Caso eu transforme, quais possibilidades eu sigo? Bases independentes ou pareadas? (basicamente as mesmas duvidas da situação anterior, mas agora os dados seguindo uma distribuição normal).
Eu realmente estou com bastante duvida nesse direcionamento. Se você ou alguém da escola conseguir me direcionar, vai me ajudar muuuuuitooo.