Oii, Marcus! Tudo bem?
Verdade, pode ser bem confuso o entendimento em um primeiro momento, Marcus. Mas, vamos estudar um pouco mais sobre isso.
O uso da amostragem simples é válida porque garante que cada elemento tenha a chance de ser selecionado. Combinado com o tamanho adequado da amostra e a verificação da representatividade, ajuda a obter uma amostra que reflete as características da população.
A função sample
realiza essa seleção de forma aleatória. O parâmetro random_state
é usado para garantir a reprodutibilidade do resultado. Ou seja, se você usar o mesmo random_state
em outra ocasião, obterá a mesma amostra, o que é útil para comparações e testes.
A finalidade da técnica é permitir que façamos inferências sobre a população a partir da amostra, com uma margem de erro aceitável. Por isso, utilizamos conceitos como margem de erro e nível de confiança, que será abordado ainda no curso sobre isso. Esses conceitos ajudam a entender até que ponto podemos confiar que a amostra reflete a população.
Espero ter ajudado a entender melhor. Continue se dedicando aos estudos e qualquer dúvida, compartilhe no fórum.
Bons estudos, Marcus!