1
resposta

[Dúvida] Essa implementação de Nested CV faz sentido?

from sklearn.model_selection import cross_val_score

best_cv_score = cross_val_score(melhor, x_ruim, y_ruim, cv = GroupKFold(n_splits = 10), groups = dados.modelo)
media = best_cv_score.mean()
desvio_padrao = best_cv_score.std()
print("Accuracy com melhor modelo (from GridSearchCV), utilizando 10 splits no GKFold através do cross_val_score\n = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))

Para o cross_val_score passei o melhor estimador, pois qual seria a necessidade em passar todos os modelos estimadores encontrados no GridSearchCV?

1 resposta

Oi Murilo, tudo bem?

Usar o cross_val_score para todos os modelos estimadores permite uma visão mais completa do desempenho de cada um, ajudando na escolha do modelo mais robusto. Isso é útil quando os modelos têm desempenho semelhante.

Mas avaliar apenas o melhor modelo também é válido e comum. Lembre-se que o desempenho visto no GridSearchCV pode ser otimista, enquanto o cross_val_score dá uma estimativa mais realista do desempenho final do modelo.

Espero ter esclarecido.

Qualquer dúvida, compartilhe no fórum.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!