[Dúvida] problema c - amostra | Dados

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

4
respostas

por Ana Carolina Knupp Gonçalves

| 61.1k xp | 38 posts

porque quando selecionamos a amostra assim: amostra = dados.sample(n = 200, random_state = 101) os resultados dos exercícios ficam diferentes de quando selecionamos amostra = dados.Renda.sample(n = 200, random_state = 101) ?

comecei o exercício fazendo da primeira forma e utilizando amostra.Renda.mean() ou amostra.Renda.std() quando necessário mas os resultados foram todos diferentes kkkkk pelo menos a resolução foi a mesma xD

4 respostas

por Lorena Garcia

| 15447.6k xp | 23317 posts

Instrutor

26/03/2024

Oii Ana, tudo bem?

Quando você seleciona a amostra utilizando dados.sample(n = 200, random_state = 101), você está criando uma amostra aleatória de 200 observações de todo o conjunto de dados dados. Nesse caso, todas as variáveis do conjunto de dados original estão presentes na amostra, e você pode acessá-las diretamente usando os nomes das colunas.

Mas, quando você faz amostra = dados.Renda.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 valores apenas da variável Renda do conjunto de dados original. Isso significa que amostra será uma Série pandas contendo apenas os valores da variável Renda, e não todo o conjunto de dados original.

Assim, ao calcular a média (amostra.Renda.mean()) ou o desvio padrão (amostra.Renda.std()), você está calculando essas estatísticas apenas para a variável Renda, não para todo o conjunto de dados.

Espero ter ajudado.

Um abraço e bons estudos.

por Ana Carolina Knupp Gonçalves

| 61.1k xp | 38 posts

26/03/2024

no caso, os resultados foram diferentes porque as séries da variável Renda são diferentes quando define-se amostra = dados.sample... e amostra = dados.Renda.sample..., mesmo com o random_state sendo igual?

solução!

por Lorena Garcia

| 15447.6k xp | 23317 posts

Instrutor

26/03/2024

Sim, exatamente. Mesmo quando você define o mesmo random_state, os resultados podem ser diferentes porque os métodos dados.sample() e dados.Renda.sample() estão selecionando amostras de diferentes partes do conjunto de dados original.

Quando você usa dados.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 observações de todo o conjunto de dados, o que inclui todas as variáveis presentes no conjunto de dados original.

Mas, quando você usa dados.Renda.sample(n = 200, random_state = 101), você está selecionando aleatoriamente 200 valores apenas da variável Renda. Isso significa que a amostra resultante terá apenas a variável Renda, não incluindo as outras variáveis do conjunto de dados original.

Então, mesmo com o mesmo random_state, as séries da variável Renda serão diferentes entre dados.sample() e dados.Renda.sample(), o que pode levar a resultados diferentes ao calcular estatísticas sobre essas amostras.

por Ana Carolina Knupp Gonçalves

| 61.1k xp | 38 posts

26/03/2024

perfeito, muito obrigada!

Importante

[Dúvida] problema c - amostra

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP