Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Sugestão] Quiz: Quando manter dados duplicados

Estou matriculada no curso Data Science: analisando e prevendo séries temporais No módulo Preparando e processando os dados, tem a atividade Quando manter dados duplicados.

Pergunta: Por ser estudante de Data Science, Ana sabe que em diversas situações é muito melhor excluir os dados duplicados do conjunto de dados do que mantê-los. No entanto, existem cenários em que não é necessário remover os dados duplicados mesmo que eles estejam presentes. Ana busca encontrar entre as possibilidades, qual cenário não é ideal para remover os dados duplicados. Selecione a alternativa em que a situação mostra que é mais interessante manter os dados duplicados.

A resposta:

Em uma pesquisa de opinião pública, o conjunto de dados inclui respostas de indivíduos aleatórios sobre sua preferência por diferentes marcas de refrigerante, juntamente com informações demográficas como idade, sexo e localização geográfica.

É considerada incorreta, mas acredito que possa gerar confusão, pois não menciona a captação de algum dado exclusivo.

Poderia ter sido recolhida a opinião de duas pessoas da mesma idade, gênero e cidade, com a mesma predileção de marca, e nesse caso, manter a duplicidade seria o ideal para não ocasionar viés.

1 resposta
solução!

Oi Luana, tudo bem?

Muito válido o seu questionamento. A decisão de manter ou remover os dados duplicados, muitas vezes é influenciada na forma que interpretamos os dados.

Nesse caso específico da alternativa a, manter a duplicidade pode ser útil para entender a intensidade da preferência por uma marca. Se duas pessoas com características semelhantes (idade, gênero, cidade) preferem a mesma marca, isso pode indicar uma forte tendência. Por exemplo, indicar que a marca é muito popular entre pessoas com as mesmas características.

Mas lembre-se: essa decisão depende do objetivo da análise. Se o foco é entender a distribuição das preferências entre diferentes grupos, por exemplo, remover os duplicados é mais adequado.

Então, temos de analisar a fundo qual será o nosso objetivo da análise.

Espero ter esclarecido. Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado