1
resposta

Porque não realizar o shuffle com dados que tem data?

Não entendi o trecho que é recomendado não usar essa técnica quando os dados possuem uma organização por data. Por exemplo, se eu tenho dados sobre uma empresa varejista e quero saber se no 3 últimos meses do ano ela vai vender mais de 50 unidades do seu produto. Porque não fazer o shuffle nesse caso pra testar o modelo?

1 resposta

Olá Gabriel.

Na verdade, a orientação do instrutor é que dependendo da situação talvez o KFold não seja o ideal. E ele diz que existem diversas outras opções de Cross validation (CV), que vão se adequar melhor a sua situação.

Por exemplo para Série temporal temos o TimeSeriesSplit que é mais indicado que o KFold e o ShuffleSplit como é explicado na própria documentação, ele é mais indicado porque levar em consideração a ordem para criar as separações.

Espero ter ajudado, bons estudos.