Dúvida cross validate

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

2
respostas

por Fabiano Manetti

| 243.9k xp | 14 posts

Olá.

Tenho uma dúvida à respeito do funcionamento do cross validate.

Lendo a documentação sobre cross validation do Sklearn (https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation), ela explica que inicialmente uma parte do dataset é resguardada para teste e que os dados de treino são splitados em k folds e feita a validação uma a uma. A própria figura ilustrativa indica isto:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Ou seja, após a validação cruzada, teríamos uma avaliação final com os dados de teste preservados.

No entanto, durante o curso utilizou-se o dataset inteiro para a função cross validate (a bem da verdade, na própria documentação do sklearn se utiliza no exemplo após a imagem o dataset Iris inteiro).

Não teríamos um enviesamento do modelo ao não separar uma parte inicialmente?

Obrigado.

2 respostas

por Daniel Alvares da Silva

| 83.7k xp | 7 posts

04/06/2022

Também estou com as mesmas dúvidas. Acho que faltou maior esclarecimento. Alguém poderia nos esclarecer ou mesmo fornecer material complementar que trate desses pontos?

Agradeço desde já!

por joao vitor dos santos pinto

| 91.6k xp | 4 posts

20/06/2022

Olá.

Acredito que esse assunto não é muito abordado nesse curso. Uma explicação simples é um tipo de validação quando se tem uma maior quantidade de dados. Mas se você continuar na trilhar de ML vai ter o curso de "Machine Learning parte 2: otimização com exploração aleatória", lá tem um tópico especificamente sobre isso "Otimização de Hiper parametro sem validação cruzada (treino, teste e validação)" link: https://cursos.alura.com.br/course/machine-learning-otimizacao-com-exploracao-aleatoria

Não vou me comprometer em explicar muito por que não cheguei nessa parte ainda.

Espero te ajudado :D

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP