Solucionado (ver solução)
Solucionado
(ver solução)
4
respostas

[Dúvida] problema c - amostra

porque quando selecionamos a amostra assim: amostra = dados.sample(n = 200, random_state = 101) os resultados dos exercícios ficam diferentes de quando selecionamos amostra = dados.Renda.sample(n = 200, random_state = 101) ?

comecei o exercício fazendo da primeira forma e utilizando amostra.Renda.mean() ou amostra.Renda.std() quando necessário mas os resultados foram todos diferentes kkkkk pelo menos a resolução foi a mesma xD

4 respostas

Oii Ana, tudo bem?

Quando você seleciona a amostra utilizando dados.sample(n = 200, random_state = 101), você está criando uma amostra aleatória de 200 observações de todo o conjunto de dados dados. Nesse caso, todas as variáveis do conjunto de dados original estão presentes na amostra, e você pode acessá-las diretamente usando os nomes das colunas.

Mas, quando você faz amostra = dados.Renda.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 valores apenas da variável Renda do conjunto de dados original. Isso significa que amostra será uma Série pandas contendo apenas os valores da variável Renda, e não todo o conjunto de dados original.

Assim, ao calcular a média (amostra.Renda.mean()) ou o desvio padrão (amostra.Renda.std()), você está calculando essas estatísticas apenas para a variável Renda, não para todo o conjunto de dados.

Espero ter ajudado.

Um abraço e bons estudos.

no caso, os resultados foram diferentes porque as séries da variável Renda são diferentes quando define-se amostra = dados.sample... e amostra = dados.Renda.sample..., mesmo com o random_state sendo igual?

solução!

Sim, exatamente. Mesmo quando você define o mesmo random_state, os resultados podem ser diferentes porque os métodos dados.sample() e dados.Renda.sample() estão selecionando amostras de diferentes partes do conjunto de dados original.

Quando você usa dados.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 observações de todo o conjunto de dados, o que inclui todas as variáveis presentes no conjunto de dados original.

Mas, quando você usa dados.Renda.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 valores apenas da variável Renda. Isso significa que a amostra resultante terá apenas a variável Renda, não incluindo as outras variáveis do conjunto de dados original.

Então, mesmo com o mesmo random_state, as séries da variável Renda serão diferentes entre dados.sample() e dados.Renda.sample(), o que pode levar a resultados diferentes ao calcular estatísticas sobre essas amostras.

perfeito, muito obrigada!