2
respostas

Teorema do limite Central

Boa noite, tudo bem? Queria tirar uma dúvida se possível.

Tenho uma amostras que fixei em 100k baseado nos tempos de execução de varias pessoas ao longo de dias. Percebi que temos muitos valores (minutos) baixos quantos altos chegando de 1 até 1000. Usando a mediana minha media fica em 4 e fiz um q-qplot para verificar a normalidade e a linha está com curvas tendenciosas. Minha dúvida é esses tempos por mais que sejam discrepantes são reais e tem repetições ao longo do dia, utilizando o teorema retirando 100 mil vezes amostras de 366 o histograma ficou uma curva em sino. Eu poderia acreditar nesses valores das curvas baseados nas amostras já que ficou entre 5/6 minutos ou seria legal tentar padronizar ou redimensionar antes de fazer o teorema ?

2 respostas

eu sei que a mediana separa nos quartis mas visualmente em gráfico fico esquisito quando quero proporcionar no todo.. e também apesar de separar nos quartis fico com dúvida se posso confiar como probabilidade de ser sempre aqueles valores da mediana ou faixa vai subir e descer

Oi, Albsrocha! Tudo bem?

Vamos destrinchar alguns pontos importantes para interpretar melhor os resultados:

  1. Mediana vs. Média A mediana é útil quando há outliers, pois divide os dados em duas metades, mas pode não representar bem a tendência central se a distribuição é assimétrica. A média pode ser influenciada significativamente pelos valores extremos.
  2. Distribuição dos Dados O fato de o Q-Q plot mostrar curvas sugere que os dados não seguem uma distribuição normal. Isso é importante, pois muitas análises estatísticas assumem normalidade. O histograma que se assemelha a uma curva em sino pode ser resultado da amostragem, mas se os dados originais não seguem essa distribuição, a interpretação deve ser cuidadosa.
  3. Amostragem e Repetição Se você retirou 100 mil amostras de 366 e obteve uma distribuição diferente, isso pode indicar que a variabilidade e a repetição nos dados reais têm um impacto significativo nas estatísticas que você observou. É importante considerar a variabilidade intrínseca dos dados ao interpretar os resultados.
  4. Padronização e Redimensionamento Padronizar ou redimensionar os dados pode ajudar a normalizar a distribuição, mas isso altera a escala dos dados e pode não ser apropriado, dependendo da sua análise. Uma abordagem alternativa seria usar transformações, como a transformação logarítmica, que pode ajudar a lidar com a assimetria.
  5. Confiabilidade da Mediana A mediana pode ser confiável como uma medida de tendência central em distribuições assimétricas, mas não garante que os valores não vão variar ao longo do tempo. A faixa interquartil (IQR) é uma boa medida da dispersão e pode ajudar a entender a variabilidade dos dados.

No geral, você pode confiar nas estimativas da mediana, mas é importante entender a natureza dos dados e a variabilidade que eles apresentam. Você também pode considerar realizar testes de hipóteses ou intervalos de confiança que não assumam normalidade, como testes de permutação, para ter uma ideia melhor da variabilidade e confiabilidade dos valores estimados.

Espero ter sanado a sua dúvida, ate mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!