Pelo que eu entendi, a ideia de usar o KFold era fazer uso do seu parâmetro "shuffle" afim de introduzir aleatoriedade no cross_validate(). No entanto, se o shuffle é determinístico, para que o estamos usando? Não entendi muito bem.
Obrigado!
Pelo que eu entendi, a ideia de usar o KFold era fazer uso do seu parâmetro "shuffle" afim de introduzir aleatoriedade no cross_validate(). No entanto, se o shuffle é determinístico, para que o estamos usando? Não entendi muito bem.
Obrigado!
Olá Pedro, tudo bem? Espero que sim!
Desculpe pela demora em retornar.
O shuffle é utilizado para embaralhar os dados antes de aplicar o cross_validate
. Dessa forma, é evitado que a ordem do conjunto de dados influencie no resultado do modelo. Muitas vezes o conjunto de dados trás um padrão na ordem que estão os elementos, seja porque houve uma filtragem na tabela, na ordem que foi preenchida, etc.
Portanto, se aplicarmos o cross_validate
diretamente nos dados sem o embaralhamento, pode ser que os conjuntos de treino e teste sejam muito diferentes uns dos outros, carregando características específicas, ocasionando em uma divisão ruim.
Bons estudos!