1
resposta

Correlação entre dispersão e volume de dados

É alta a correlação entre o aumento do volume de dados e a queda da dispersão?

Categorias que possuem alto volume de observações deverá ter uma dispersão menor?

1 resposta

Olá Lucas, ótima pergunta, muito bem observado!

Para responder a sua pergunta nós precisamos ter em mente dois conceitos:

#Conceitos

  1. Correlação e Causalidade: Nem sempre a correlação entre duas variáveis implica em uma causar a outra: Sabemos que a venda de sorvetes está diretamente relacionada com a temperatura do dia, e podemos dizer que o aumento de temperatura causa o acréscimo nas vendas de sorvete. Por outro lado, você sabia que existe uma forte correlação entre o número de filmes que o Nicolas Cage lança no ano e o número de afogamentos em piscina no mesmo ano? Essa correlação não deveria ter causalidade Essa e outras não causalidades. É sempre bom ter esse conceito na mente, e você perguntou isso, correto? se quando o número de amostras sobe, a dispersão também sobe.

  2. População e amostra: Um teste populacional é preciso, uma vez que se testa toda a população envolvida, porém é muito caro e na maioria das vezes impraticável. Um teste amostral, por sua vez, é muito mais barato para ser produzido quando comparado com o populacional, trazendo como ônus um erro de medição junto com ele. Esse erro de maneira geral depende da aleatoriedade dos dados e da razão entre a amostra e a população.

RESPOSTA Na teoria não deveria existir correlação entre o número de amostras e a variação. Imagine que eu tenha um pais cuja população têm em média 50 anos com um desvio padrão de 30 anos. Quanto mais pessoas eu medir (ou seja, eu aumente o volume de informações), mais eu me aproximo do valor populacional e menos erro eu vou carregar na minha medição. Então não existe correlação entre o número de amostras e a variação . A medida que eu começo com zero amostras e vou subindo a quantidade de amostras, a minha variação vai naturalmente aumentando, mais chega um ponto de platô, onde mesmo que eu continue aumentando a quantidade de amostras lidas, o valor amostral vai estar próximo ao valor populacional e não haverá mais acréscimos na variação. Um estudo bem planejado e aleatorizado deveria na verdade fazer o contrario, chegar num valor de média e dispersão bem próximo ao populacional com relativamente poucas amostras e a medida que aumenta o número de dados, esse valor populacional (real) vai cada vez se confirmando mais e vai tendo o erro ou incerteza no resultado cada vez menor.