1
resposta

Para que serviu o shuffle se ainda é determinístico?

Pelo que eu entendi, a ideia de usar o KFold era fazer uso do seu parâmetro "shuffle" afim de introduzir aleatoriedade no cross_validate(). No entanto, se o shuffle é determinístico, para que o estamos usando? Não entendi muito bem.

Obrigado!

1 resposta

Olá Pedro, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

O shuffle é utilizado para embaralhar os dados antes de aplicar o cross_validate. Dessa forma, é evitado que a ordem do conjunto de dados influencie no resultado do modelo. Muitas vezes o conjunto de dados trás um padrão na ordem que estão os elementos, seja porque houve uma filtragem na tabela, na ordem que foi preenchida, etc.

Portanto, se aplicarmos o cross_validate diretamente nos dados sem o embaralhamento, pode ser que os conjuntos de treino e teste sejam muito diferentes uns dos outros, carregando características específicas, ocasionando em uma divisão ruim.

Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software