Separando os dados em treino e teste para evitar o vício | Machine Learning parte 1: otimização de modelos através de hiperparâmetros

Se eu separasse meus dados em teste e treino, ao invés de pegar todos eles e dividir em X_azar e Y_azar. Eu faria todo o processo de achar os melhores hiperparâmetros(GridSearch) com meu dados treino. E ao final eu poderia usar os meus dados testes( nunca visto pelo melhor modelo) para testar se o modelo funcionaria no mundo real. Testaria da seguinte forma:

predicoes = melhor.predict (x_test)
#perceba que não estou usando o  X_azar
accuracy = accuracy_score (predicoes, y_test) * 100 
Print ( "Accuracy para os dados de teste foi %.2f%%" %accuracy)

Seria possível?

Observação: isso seria minha alternativa para não ter esse vício que foi citado no vídeo, ou seja, eu não faria aquele processo final com KFold e o cross_val_score mostrado ao final da aula (método Nested cross validation).