2
respostas

Dúvida cross validate

Olá.

Tenho uma dúvida à respeito do funcionamento do cross validate.

Lendo a documentação sobre cross validation do Sklearn (https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation), ela explica que inicialmente uma parte do dataset é resguardada para teste e que os dados de treino são splitados em k folds e feita a validação uma a uma. A própria figura ilustrativa indica isto:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Ou seja, após a validação cruzada, teríamos uma avaliação final com os dados de teste preservados.

No entanto, durante o curso utilizou-se o dataset inteiro para a função cross validate (a bem da verdade, na própria documentação do sklearn se utiliza no exemplo após a imagem o dataset Iris inteiro).

Não teríamos um enviesamento do modelo ao não separar uma parte inicialmente?

Obrigado.

2 respostas

Também estou com as mesmas dúvidas. Acho que faltou maior esclarecimento. Alguém poderia nos esclarecer ou mesmo fornecer material complementar que trate desses pontos?

Agradeço desde já!

Olá.

Acredito que esse assunto não é muito abordado nesse curso. Uma explicação simples é um tipo de validação quando se tem uma maior quantidade de dados. Mas se você continuar na trilhar de ML vai ter o curso de "Machine Learning parte 2: otimização com exploração aleatória", lá tem um tópico especificamente sobre isso "Otimização de Hiper parametro sem validação cruzada (treino, teste e validação)" link: https://cursos.alura.com.br/course/machine-learning-otimizacao-com-exploracao-aleatoria

Não vou me comprometer em explicar muito por que não cheguei nessa parte ainda.

Espero te ajudado :D