A Validação Não Seria Desnecessária? Ou Um Erro de Lógica?

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

2
respostas

por Bruno

| 195.7k xp | 85 posts

A validação utiliza os mesmos dados do teste, podendo, inclusive, terem grandes semelhanças entre si, o que tornaria a validação uma repetição do teste.

Entendo que quando a literatura diz que devemos testar o modelo com dados ainda não vistos, seria com dados que ainda não existem em nossa base mas futuramente podem surgir. Neste caso gostaríamos que o nosso modelo funcionasse bem com estes dados.

Na aula, damos uma fatia grande de bolo de limão e ensinamos quais são os ingredientes. Depois damos mais duas fatias do mesmo bolo afirmando que é um bolo que nosso modelo nunca viu antes. O que não me parece o melhor método.

O que tenho feito é pegar os dados e dividi-los em dois grupos:

A = +- 80%

B = +- 20%

Nenhum dos dados do Grupo A estão contidos no Grupo B.

Divido o grupo A em dois:

A1 = 60% (Treino)

A2 = 20%

Podemos realizar diversos testes com os Grupos utilizando o random:

A1+A2

A1+B

A2+B

Neste caso, o teste/validação pode conter dados nunca vistos antes, de forma total ou parcial. Uma garantia que não temos no cross validation, apesar de provável.

Neste contexto específico, acho que a validação é desnecessária e o teste pode não estar cumprindo o seu papel se o objetivo for testar com dados nunca antes visto pelo modelo.

2 respostas

por Igor Nascimento Alves

| 497.9k xp | 708 posts

Instrutor Engenheiro de dados

10/08/2020

Olá Bruno.

Recomendo a leitura desse texto da documentação, nele vemos como o cross-validation busca evitar o overfitting ao mesmo tempo que tenta diminuir o risco de "gastarmos" todos os nossos dados. Mas o ponto que acho que devemos tomar mais cuidado é o fato de escolhas aleatórias influenciarem nosso resultado, a tal da "sorte" que o instrutor comentou.

"However, by partitioning the available data into three sets, we drastically reduce the number of samples which can be used for learning the model, and the results can depend on a particular random choice for the pair of (train, validation) sets."

E esse é um dos pontos que o CV tenta resolver, na propria documentação somos direcionador para o artigo do wikipedia que trata um pouco mais sobre o conceito estatismo que é utilizado para embasar a implementação do Sklearn.

Bons Estudos.

por Bruno

| 195.7k xp | 85 posts

10/08/2020

Mais uma vez, obrigado pela dica. Vou ler sim.

Apenas uma ressalva que talvez não tenha me expressado bem. Para evitar o fator sorte estou usando um volume maior de testes, de tal forma que alguns poucos testes tendenciosos tenham o seu peso diluído. O treino é feito uma única vez, e após os testes o modelo é descartado, salvo apenas os resultados e outros dados para repetir o experimento.

Obs.: Não estou usando o Cross, mas o treino único.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP