Estou com uma dúvida conceitual sobre o tema. Eu entendo que, quando estamos falando de populações infinitas (olhando o conjunto de dados do IBGE, por exemplo), eu posso fazer algo como
dados.Renda.std()
para obter o desvio-padrão e tal.
O que eu não entendo é na questão do exemplo da amostra populacional finita. Repetindo o enunciado do exemplo:
"Em um lote com 10.000 latas foi realizada uma amostra aleatória simplesde 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml [...]"
Nesse caso, como exatamente eu sei calcular esse valor de desvio padrão das latas? Digo, o problema não remete exatamente a como calcular o tamanho necessário para que a amostra represente bem a população? Então por que eu, antes de calcular esse número, seleciono uma amostra de tamanho 100 (aparentemente sem justificativa prévia) e calculo o desvio-padrão amostral associado a essa amostra preliminar? Em suma, por que selecionamos uma amostra de 100 latas para calcular o desvio-padrão amostral?
Obs.: se a resposta for algo como "porque eu preciso de uma amostra preliminar para calcular o desvio padrão amostral e determinar o tamanho da amostra posterior", eu pergunto uma outra coisa: se eu selecionasse 10 latas e calculasse o desvio-padrão amostral dessas 10, eu assumiria como o desvio-padrão amostral e utilizaria igual utilizamos quando foram selecionadas 100 latas?