Dados de treino ou dataset completo? | Classificação: melhorando o desempenho com XGBoost

2
respostas

por Carlos Virgílio Beltrão Lessa

| 71.4k xp | 46 posts

Olá, colegas e instrutores!

Estou estudando sobre otimização de hiperparâmetros usando RandomizedSearchCV e tive uma dúvida importante sobre a prática de divisão dos dados antes do treinamento.

Em cursos anteriores, sempre foi enfatizado que, ao aplicar validação cruzada, devemos usar apenas os dados de treino (X_treino e y_treino) para evitar vazamento de informações. Isso porque o conjunto de teste deve permanecer completamente isolado até a avaliação final.

No entanto, na atividade atual, percebi que a função fit() do RandomizedSearchCV recebe o dataset completo (X e y), e a própria ferramenta realiza a divisão internamente para a validação cruzada. Ainda assim, a alternativa que afirma que "a função fit() deve receber apenas os dados de treino" foi marcada como incorreta, com a justificativa de que o RandomizedSearchCV cuida da divisão automaticamente.

Minha dúvida é:

É realmente correto enviar os dados completos (X e y) diretamente ao fit() do RandomizedSearchCV, mesmo que tenhamos um conjunto de teste separado?

Ou, apesar disso, ainda é uma boa prática separar previamente os dados em treino e teste, e passar apenas o treino para o RandomizedSearchCV, reservando o teste apenas para avaliação final?

Por exemplo:

# Opção 1: Usar dados completos
search = RandomizedSearchCV(modelo, param_distributions, cv=5)
search.fit(X, y)  # X e y completos

# Opção 2: Separar antes
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2)
search.fit(X_treino, y_treino)  # Apenas treino

A primeira opção parece mais simples, mas existe risco de vazamento se o conjunto de teste estiver incluído nos dados usados para busca de hiperparâmetros?

Já vi explicações dizendo que o RandomizedSearchCV já faz a divisão interna e que não há problema, mas também leio que a separação prévia em treino/teste é essencial para garantir generalização.

Gostaria de entender qual é a prática recomendada nesse contexto, especialmente quando estamos trabalhando com modelos como XGBoost, onde a busca de hiperparâmetros pode ser computacionalmente intensiva.

Obrigado pela ajuda!

Dados de treino ou dataset completo

Luri está certa?

2 respostas

por Monalisa Meyrelle de Sousa Silva

| 3508.3k xp | 7968 posts

Alura Scuba Team

25/08/2025

Oi Carlos, tudo bem?

O RandomizedSearchCV de fato faz a validação cruzada internamente, então não existe risco de vazamento ao passar X e y completos para o fit(). Ele mesmo se encarrega de dividir os dados em folds de treino e validação, garantindo que cada combinação de hiperparâmetros seja avaliada de forma correta.

Mas, ainda assim, é fundamental separar previamente um conjunto de teste e deixá-lo totalmente de fora desse processo. O motivo é que o RandomizedSearchCV está ajustando o modelo com base nos dados que você fornece, então precisamos de um conjunto realmente inédito para avaliar o desempenho final e confirmar a capacidade de generalização.

Por isso, a prática recomendada é:

Separe teste e treino antes;
Use apenas o treino (treino+validação) no RandomizedSearchCV;
E no final avalie no teste. Assim, você tem tanto a otimização segura quanto uma avaliação final confiável.

Espero ter esclarecido.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

por Carlos Virgílio Beltrão Lessa

| 71.4k xp | 46 posts

26/08/2025

Obrigado pela explicação, Monalisa!

Ficou bem claro agora que o RandomizedSearchCV realiza internamente a validação cruzada e que não há vazamento ao passar os dados completos — desde que, claro, um conjunto de teste separado seja reservado para a avaliação final.

Aproveito para deixar uma sugestão em relação à alternativa A. Da forma como está redigida, pode acabar induzindo ao erro colegas que não se aprofundarem no fórum ou no Discord. O enunciado "A função fit() deve receber apenas os dados de treino (X_treino e y_treino)" foi marcado como incorreto, com a justificativa de que o fit() deve receber os dados completos. Isso pode confundir, já que a prática recomendada (e mais segura) continua sendo separar treino e teste previamente, e passar apenas o treino para o RandomizedSearchCV.

Talvez valha a pena reformular, substituir ou remover essa alternativa, para evitar que alguém conclua equivocadamente que o teste deve ser incluído no processo de busca de hiperparâmetros.