Vazamento de dados X Cross Validation | Machine Learning parte 2: otimização com exploração aleatória

Olá, tudo bem?

Primeiramente, obrigada por sua pergunta e por sua atenção aos detalhes no curso. É ótimo que você esteja se aprofundando nesses conceitos!

Realmente, dividir os dados em conjuntos de treinamento, teste e validação é uma prática comum e eficaz para evitar vazamentos de dados. Essa abordagem permite que você tenha um controle mais direto sobre como seus dados são divididos e usados no treinamento e na avaliação do modelo.

Sobre as técnicas de validação cruzadas utilizadas, existem outras técnicas além do GroupKFold que podem garantir o não-vazamento das informações. Uma delas é a Nested (ou validação cruzada aninhada), uma abordagem avançada para avaliar o desempenho de modelos de aprendizado de máquina, especialmente quando você deseja evitar vazamento de dados e estimar de forma confiável como seu modelo se comportará em dados não vistos. Ela é frequentemente usada em conjuntos de dados pequenos ou quando se lida com problemas em que o vazamento de dados pode ser crítico.

Continue com suas perguntas e explorações, pois isso contribui para um entendimento mais profundo e sólido do assunto.

Se tiver mais dúvidas ou precisar de mais esclarecimentos, fique à vontade para perguntar!

Bons estudos!