Alguma vantagem ou desvantagem em se usar sempre (ou quase sempre) o StatifiedKFold ? Se as classes forem muito desbalancedas (ex.: detecção de fraude) ou bem homogêneas ? Se a varável de classificação não for binária ele funciona bem??
Alguma vantagem ou desvantagem em se usar sempre (ou quase sempre) o StatifiedKFold ? Se as classes forem muito desbalancedas (ex.: detecção de fraude) ou bem homogêneas ? Se a varável de classificação não for binária ele funciona bem??
Olá Geraldo.
Interessante seu ponto, busquei pelo seu questionamento e encontrei essa discussão no stackoverflow e esse post de um blog, onde é apontado os problemas que temos em utilizar o kfold em dados desbalanceados.
Entretanto, olhando a documentação do Stratified k-fold, encontramos que é uma das preocupações dele diminuir os problemas de classes desbalanceadas.
Acredito que lendo essas fontes vai poder determinar qual é a melhor abordagem para o seu problema.
Bons Estudos.