[Dúvida] Uso do dataset completo para a validação cruzada

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

1
resposta

por Matheus Ricardo Uihara Zingarelli

| 252.1k xp | 324 posts

Olá.

Em cursos anteriores, quando aplicávamos a validação cruzada, era comum enviarmos somente os dados de treinamento para a validação (X_treino e y_treino), de modo a evitar vazamento de dados. Nesta atividade, vi que foi enviado o dataset completo (X e y). Entendi que isso foi feito devido ao tamanho do dataset ser bem pequneo (270 entradas). Caso eu tivesse um dataset maior, com milhares de entradas, eu aplicaria a validação cruzada somente nos dados de treinamento (X_treino e y_treino)? Ou a validação cruzada no XGBoost é assim mesmo: envio o dataset completo?

Obrigado!

1 resposta

solução!

por Valquíria Alencar

| 185.4k xp | 196 posts

Instrutor

22/01/2024

Oi, Matheus! tudo bem?

Independente do algoritmo, é comum a prática de realizar a validação cruzada apenas nos dados de treinamento (X_treino e y_treino), como você mencionou.

A razão para isso é evitar vazamento de informações entre os conjuntos de treinamento e teste, garantindo uma avaliação mais realista do desempenho do modelo. Se você aplicar a validação cruzada no dataset completo, há o risco de o modelo aprender padrões específicos do conjunto de teste durante as iterações, o que pode resultar em uma estimativa otimista do desempenho.

Na atividade Para saber mais: aprofundando na validação cruzada, temos uma explicação mais detalhada sobre o assunto.

Obrigada por contribuir com o fórum e sempre trazer resultados e questionamentos :)

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP