Dados duplicados em qualidade_leite.csv do curso Classificação: construindo modelos semi-supervisionados. Na base qualidade_leite.csv , após aplicar o filtro para retirar os dados nulos da coluna "Qualidade", restam 424 registros que serão utilizados como base para a continuidade do curso. O problema é que desses 424 registros, apenas 70 são efetivamente diferentes, os demais são repetidos, de modo que ao utilizar esses registros repetidos, poderá ocorrer overfitting. Se o exercício for realizado somente com os 70 registros, os resultados serão bem diferentes dos que foram obtidos no exercício. Gostaria de saber o motivo pelo qual foram repetidos os registros na proporção de aproximadamente 6 para 1?