1
resposta

Relação entre Funções Pseudoaleatórias e seleções para fazer parte da Amostra

Boa tarde, tudo bem? Gostaria de entender melhor a geração dos indivíduos de uma amostra. Por exemplo, temos uma população e, ao criarmos uma amostra, gostaríamos que cada elemento da população tivesse as mesmas chances de serem selecionados para fazerem parte da amostra.

Passando isso para a ciências da computação, podemos utilizar funções que simulariam esse comportamento, como uma Seed do Numpy ou simplesmente utilizarmos o padrão random_state da função Sample.

A minha dúvida gira em torno da junção desses tópicos que citei. Como sabermos (seja utilizando uma Seed, um Sample ou qualquer outro código) que de fato cada elemento da população tem as mesmas chances de serem selecionados para fazer parte da amostra?

Esses códigos que citei, por na verdade serem pseudoaleatórios e sempre "seguirem um processo específico de acordo com seu parâmetro" seria o que garante as mesmas chances para cada elemento todas as vezes?

Grato desde já pessoal, abraços!

1 resposta

Olá Leonardo, tudo bem? Espero que sim!

Os elementos tem a mesma chance de serem selecionados porque não há uma regra matemática para a escolha do primeiro elemento da sequência dos valores escolhidos para a amostra. Ao utilizar as sequências pseudoaleatórias, a linguagem de programação irá selecionar um valor inicial utilizando o tempo atual do seu computador, que varia a todo instante, trazendo assim um resultado diferente sempre.

Ao definir uma seed, você está fixando a sequência de números que será escolhida, portanto o resultado poderá ser repetido caso utilize a mesma seed posteriormente.

Nesse outro tópico: Gerador de números aleatórios há uma discussão sobre o assunto e há um vídeo deixado na resposta de uma aluno que explica melhor esse conceito de números pseudoaleatórios.

A discussão desse assunto é bastante interessante. Espero que tenha ajudado.

Bons estudos!