Olá!
Estou com dúvidas na utilização da validação cruzada aninhada e para que ela pode servir. No caso, ela serve somente para passar um score mais consistente ao modelo que criamos utilizando o GridSearchCV? Ou ela também serve para indicar o modelo com os melhores hiperparâmetros encontrados?
Vou tentar explicar melhor minha dúvida... vamos lá.
Na validação cruzada aninhada, a validação cruzada externa separa o conjunto de dados em diferentes partes, criando diferentes conjuntos de treino e teste. Cada conjunto de treino é enviado para uma validação cruzada interna, que usa esses dados no GridSearchCV para encontrar os melhores hiperparâmetros, certo? Com isso, não há a possibilidade de que cada GridSearchCV encontre valores de hiperparâmetros diferentes, já que foram treinados com conjuntos de treino diferentes? Aí nesse caso, qual "configuração" de hiperparâmetros eu vou escolher para aplicar ao meu modelo? Como eu acesso isso quando faço a validação cruzada aninhada? Ou essa não seria a responsabilidade da validação cruzada aninhada?
No momento, o que eu entendi é que fazemos estes passos:
1- separar meus dados em treino e teste;
2- usar os dados de treino com o GridSearchCV para encontrar os melhores hiperparâmetros para meu modelo. Aqui obtemos o modelo;
3- usar os dados de treino na validação cruzada aninhada para obter valores de score menos otimistas. Aqui obtemos um valor de score mais consistente, sendo que o modelo foi encontrado no passo anterior.
Seria isso?
Obrigado!