1
resposta

[Dúvida] Dados duplicados em qualidade_leite.csv do curso Classificação: construindo modelos semi-supervisionados

Dados duplicados em qualidade_leite.csv do curso Classificação: construindo modelos semi-supervisionados. Na base qualidade_leite.csv , após aplicar o filtro para retirar os dados nulos da coluna "Qualidade", restam 424 registros que serão utilizados como base para a continuidade do curso. O problema é que desses 424 registros, apenas 70 são efetivamente diferentes, os demais são repetidos, de modo que ao utilizar esses registros repetidos, poderá ocorrer overfitting. Se o exercício for realizado somente com os 70 registros, os resultados serão bem diferentes dos que foram obtidos no exercício. Gostaria de saber o motivo pelo qual foram repetidos os registros na proporção de aproximadamente 6 para 1?

1 resposta

Oi Vagner, tudo bem?

Realmente há uma repetição considerável de dados! O que pode ter ocorrido é que considerando o contexto da base de dados, provavelmente, as condições de produção se mantiverem constantes durante um período, com isso a ocorrência de várias medições com os mesmos valores para as variáveis, consequentemente, com a mesma qualidade.

Você pode prosseguir com os 70 registros únicos, através do drop_duplicates(). Mas como mencionou, isso criará uma inconsistência em relação ao projeto do instrutor. Por isso, recomendo que siga utilizando a base de dados original, conforme os passos indicados no curso, para evitar impactos na didática e no aprendizado.

Obrigada por sinalizar essa situação! Vou encaminhar o tópico para a equipe responsável.

Espero ter ajudado. Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado