A validação utiliza os mesmos dados do teste, podendo, inclusive, terem grandes semelhanças entre si, o que tornaria a validação uma repetição do teste.
Entendo que quando a literatura diz que devemos testar o modelo com dados ainda não vistos, seria com dados que ainda não existem em nossa base mas futuramente podem surgir. Neste caso gostaríamos que o nosso modelo funcionasse bem com estes dados.
Na aula, damos uma fatia grande de bolo de limão e ensinamos quais são os ingredientes. Depois damos mais duas fatias do mesmo bolo afirmando que é um bolo que nosso modelo nunca viu antes. O que não me parece o melhor método.
O que tenho feito é pegar os dados e dividi-los em dois grupos:
A = +- 80%
B = +- 20%
Nenhum dos dados do Grupo A estão contidos no Grupo B.
Divido o grupo A em dois:
A1 = 60% (Treino)
A2 = 20%
Podemos realizar diversos testes com os Grupos utilizando o random:
A1+A2
A1+B
A2+B
B
Neste caso, o teste/validação pode conter dados nunca vistos antes, de forma total ou parcial. Uma garantia que não temos no cross validation, apesar de provável.
Neste contexto específico, acho que a validação é desnecessária e o teste pode não estar cumprindo o seu papel se o objetivo for testar com dados nunca antes visto pelo modelo.