Vou tentar dividir as dúvidas de forma clara. Partindo do pressuposto que:
1 - Muito se falou sobre testar para saber como o modelo se comportaria com outros dados, do mundo real. Então pergunto:
1 .1 - Os dados utilizados representam um comportamento do mundo real?
SIM: O treino, teste e avaliações se separados não deveriam manter a mesma proporção (representação da realidade)?
NÃO: Deveríamos pré processar os dados para torná-los mais próximos da realidade? Treinando com dados que não representam o mundo real não seria navegar com a bússola sem norte?
NÃO SABEMOS: Se não sabemos se os dados representam ou não o mundo real, faz alguma diferença em testar se não sabemos se estamos melhorando? Ou não seria mais interessante treinar e testar com várias amostras aleatórias?