Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Duvida inclusão base completa grid search

Bom dia!

Na aula para apuração do fit na etapa do grid.fit(X, y) (aula 4 vídeo 02 - Entendendo a taxa de aprendizagem), sugere-se incluir a base completa do X e do y, conforme aulas anteriores.

A minha dúvida é se a utilização da base como um todo não poderia gerar um problema de vazamento de dados da base de Teste para os cálculos da base de Treino.

2 respostas
solução!

Olá, Hélio! tudo bem? Sua dúvida sobre o possível vazamento de dados ao usar a base completa no grid.fit(X, y) é muito válida e importante. O conceito de vazamento de dados ocorre quando informações do conjunto de teste são inadvertidamente usadas durante o treinamento do modelo.

No caso do GridSearchCV, ele utiliza a técnica de validação cruzada para avaliar o desempenho do modelo. Com isso, ele divide automaticamente seus dados em diferentes subconjuntos (ou "folds") e, para cada combinação de hiperparâmetros, treina o modelo em uma parte dos dados e testa em outra. Dessa forma, ele não utiliza diretamente o conjunto de teste final durante o processo de ajuste de hiperparâmetros, evitando o vazamento de dados.

Por exemplo, se você tem um conjunto de dados X e y, o GridSearchCV pode dividi-los em 5 partes (se cv=5), treinando o modelo em 4 partes e validando na parte restante. Isso é repetido para cada combinação de hiperparâmetros e para cada parte dos dados, garantindo que o modelo não "veja" os dados de teste até que o processo de ajuste de hiperparâmetros esteja completo.

Espero ter esclarecido.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Maravilha! Muito obrigado pelo retorno Monalisa!