1
resposta

Vazamento de dados X Cross Validation

Olá, Fiquei em dúvida sobre o impacto do utilização de cross validation no vazamento de dados. Segundo meu leigo olhar, a única maneira que foi utilizada que garantiria o não vazamento dos dados de treino para os de teste seria através do GroupKFold, porém no final ele ignora a utilização de grupos pelo bug relatado e passa a usar KFold. Teve algum detalhe que perdi ou o vazamento é aceito?

Após assistir só vejo uma forma de utilizar sem ter esse vazamento que seria a última forma apresentada na qual há a divisão de treino, teste e validação. É isso mesmo?

1 resposta

Olá, tudo bem?

Primeiramente, obrigada por sua pergunta e por sua atenção aos detalhes no curso. É ótimo que você esteja se aprofundando nesses conceitos!

Realmente, dividir os dados em conjuntos de treinamento, teste e validação é uma prática comum e eficaz para evitar vazamentos de dados. Essa abordagem permite que você tenha um controle mais direto sobre como seus dados são divididos e usados no treinamento e na avaliação do modelo.

Sobre as técnicas de validação cruzadas utilizadas, existem outras técnicas além do GroupKFold que podem garantir o não-vazamento das informações. Uma delas é a Nested (ou validação cruzada aninhada), uma abordagem avançada para avaliar o desempenho de modelos de aprendizado de máquina, especialmente quando você deseja evitar vazamento de dados e estimar de forma confiável como seu modelo se comportará em dados não vistos. Ela é frequentemente usada em conjuntos de dados pequenos ou quando se lida com problemas em que o vazamento de dados pode ser crítico.

Continue com suas perguntas e explorações, pois isso contribui para um entendimento mais profundo e sólido do assunto.

Se tiver mais dúvidas ou precisar de mais esclarecimentos, fique à vontade para perguntar!

Bons estudos!