Se eu separasse meus dados em teste e treino, ao invés de pegar todos eles e dividir em X_azar e Y_azar. Eu faria todo o processo de achar os melhores hiperparâmetros(GridSearch) com meu dados treino. E ao final eu poderia usar os meus dados testes( nunca visto pelo melhor modelo) para testar se o modelo funcionaria no mundo real. Testaria da seguinte forma:
predicoes = melhor.predict (x_test)
#perceba que não estou usando o X_azar
accuracy = accuracy_score (predicoes, y_test) * 100
Print ( "Accuracy para os dados de teste foi %.2f%%" %accuracy)
Seria possível?
Observação: isso seria minha alternativa para não ter esse vício que foi citado no vídeo, ou seja, eu não faria aquele processo final com KFold e o cross_val_score mostrado ao final da aula (método Nested cross validation).