Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Separando os dados em treino e teste para evitar o vício

Se eu separasse meus dados em teste e treino, ao invés de pegar todos eles e dividir em X_azar e Y_azar. Eu faria todo o processo de achar os melhores hiperparâmetros(GridSearch) com meu dados treino. E ao final eu poderia usar os meus dados testes( nunca visto pelo melhor modelo) para testar se o modelo funcionaria no mundo real. Testaria da seguinte forma:

predicoes = melhor.predict (x_test)
#perceba que não estou usando o  X_azar
accuracy = accuracy_score (predicoes, y_test) * 100 
Print ( "Accuracy para os dados de teste foi %.2f%%" %accuracy)

Seria possível?

Observação: isso seria minha alternativa para não ter esse vício que foi citado no vídeo, ou seja, eu não faria aquele processo final com KFold e o cross_val_score mostrado ao final da aula (método Nested cross validation).

1 resposta
solução!

Olá Brenda.

Você está correta, é uma abordagem correta, já que estamos validando o melhor modelo com dados que ele nunca viu, porem vamos perder as vantagens que o cross validation (CV).

Recomendo duas leituras que reforçam os conceitos de CV, primeiro a própria documentação do sklearn e também esse texto.

Bons Estudos.