Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Uso do dataset completo para a validação cruzada

Olá.

Em cursos anteriores, quando aplicávamos a validação cruzada, era comum enviarmos somente os dados de treinamento para a validação (X_treino e y_treino), de modo a evitar vazamento de dados. Nesta atividade, vi que foi enviado o dataset completo (X e y). Entendi que isso foi feito devido ao tamanho do dataset ser bem pequneo (270 entradas). Caso eu tivesse um dataset maior, com milhares de entradas, eu aplicaria a validação cruzada somente nos dados de treinamento (X_treino e y_treino)? Ou a validação cruzada no XGBoost é assim mesmo: envio o dataset completo?

Obrigado!

1 resposta
solução!

Oi, Matheus! tudo bem?

Independente do algoritmo, é comum a prática de realizar a validação cruzada apenas nos dados de treinamento (X_treino e y_treino), como você mencionou.

A razão para isso é evitar vazamento de informações entre os conjuntos de treinamento e teste, garantindo uma avaliação mais realista do desempenho do modelo. Se você aplicar a validação cruzada no dataset completo, há o risco de o modelo aprender padrões específicos do conjunto de teste durante as iterações, o que pode resultar em uma estimativa otimista do desempenho.

Na atividade Para saber mais: aprofundando na validação cruzada, temos uma explicação mais detalhada sobre o assunto.

Obrigada por contribuir com o fórum e sempre trazer resultados e questionamentos :)