2
respostas

A Validação Não Seria Desnecessária? Ou Um Erro de Lógica?

A validação utiliza os mesmos dados do teste, podendo, inclusive, terem grandes semelhanças entre si, o que tornaria a validação uma repetição do teste.

Entendo que quando a literatura diz que devemos testar o modelo com dados ainda não vistos, seria com dados que ainda não existem em nossa base mas futuramente podem surgir. Neste caso gostaríamos que o nosso modelo funcionasse bem com estes dados.

Na aula, damos uma fatia grande de bolo de limão e ensinamos quais são os ingredientes. Depois damos mais duas fatias do mesmo bolo afirmando que é um bolo que nosso modelo nunca viu antes. O que não me parece o melhor método.

O que tenho feito é pegar os dados e dividi-los em dois grupos:

A = +- 80%

B = +- 20%

Nenhum dos dados do Grupo A estão contidos no Grupo B.

Divido o grupo A em dois:

A1 = 60% (Treino)

A2 = 20%

Podemos realizar diversos testes com os Grupos utilizando o random:

A1+A2

A1+B

A2+B

B

Neste caso, o teste/validação pode conter dados nunca vistos antes, de forma total ou parcial. Uma garantia que não temos no cross validation, apesar de provável.

Neste contexto específico, acho que a validação é desnecessária e o teste pode não estar cumprindo o seu papel se o objetivo for testar com dados nunca antes visto pelo modelo.

2 respostas

Olá Bruno.

Recomendo a leitura desse texto da documentação, nele vemos como o cross-validation busca evitar o overfitting ao mesmo tempo que tenta diminuir o risco de "gastarmos" todos os nossos dados. Mas o ponto que acho que devemos tomar mais cuidado é o fato de escolhas aleatórias influenciarem nosso resultado, a tal da "sorte" que o instrutor comentou.

"However, by partitioning the available data into three sets, we drastically reduce the number of samples which can be used for learning the model, and the results can depend on a particular random choice for the pair of (train, validation) sets."

E esse é um dos pontos que o CV tenta resolver, na propria documentação somos direcionador para o artigo do wikipedia que trata um pouco mais sobre o conceito estatismo que é utilizado para embasar a implementação do Sklearn.

Bons Estudos.

Mais uma vez, obrigado pela dica. Vou ler sim.

Apenas uma ressalva que talvez não tenha me expressado bem. Para evitar o fator sorte estou usando um volume maior de testes, de tal forma que alguns poucos testes tendenciosos tenham o seu peso diluído. O treino é feito uma única vez, e após os testes o modelo é descartado, salvo apenas os resultados e outros dados para repetir o experimento.

Obs.: Não estou usando o Cross, mas o treino único.