Duvida inclusão base completa grid search

Helio Ferreira de Carvalho · 2025-03-30 10:06

Bom dia! Na aula para apuração do fit na etapa do grid.fit(X, y) (aula 4 vídeo 02 - Entendendo a taxa de aprendizagem), sugere-se incluir a base completa do X e do y, conforme aulas anteriore

Olá, Hélio! tudo bem? Sua dúvida sobre o possível vazamento de dados ao usar a base completa no grid.fit(X, y) é muito válida e importante. O conceito de vazamento de dados ocorre quando informações do conjunto de teste são inadvertidamente usadas durante o treinamento do modelo.

No caso do GridSearchCV, ele utiliza a técnica de validação cruzada para avaliar o desempenho do modelo. Com isso, ele divide automaticamente seus dados em diferentes subconjuntos (ou "folds") e, para cada combinação de hiperparâmetros, treina o modelo em uma parte dos dados e testa em outra. Dessa forma, ele não utiliza diretamente o conjunto de teste final durante o processo de ajuste de hiperparâmetros, evitando o vazamento de dados.

Por exemplo, se você tem um conjunto de dados X e y, o GridSearchCV pode dividi-los em 5 partes (se cv=5), treinando o modelo em 4 partes e validando na parte restante. Isso é repetido para cada combinação de hiperparâmetros e para cada parte dos dados, garantindo que o modelo não "veja" os dados de teste até que o processo de ajuste de hiperparâmetros esteja completo.

Espero ter esclarecido.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP