Estou matriculada no curso Data Science: analisando e prevendo séries temporais No módulo Preparando e processando os dados, tem a atividade Quando manter dados duplicados.
Pergunta: Por ser estudante de Data Science, Ana sabe que em diversas situações é muito melhor excluir os dados duplicados do conjunto de dados do que mantê-los. No entanto, existem cenários em que não é necessário remover os dados duplicados mesmo que eles estejam presentes. Ana busca encontrar entre as possibilidades, qual cenário não é ideal para remover os dados duplicados. Selecione a alternativa em que a situação mostra que é mais interessante manter os dados duplicados.
A resposta:
Em uma pesquisa de opinião pública, o conjunto de dados inclui respostas de indivíduos aleatórios sobre sua preferência por diferentes marcas de refrigerante, juntamente com informações demográficas como idade, sexo e localização geográfica.
É considerada incorreta, mas acredito que possa gerar confusão, pois não menciona a captação de algum dado exclusivo.
Poderia ter sido recolhida a opinião de duas pessoas da mesma idade, gênero e cidade, com a mesma predileção de marca, e nesse caso, manter a duplicidade seria o ideal para não ocasionar viés.