Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Como o StratifiedKFold sabe a coluna a ser usada para a estratificação?

Olá!

Quando utilizamos a função train_test_split, ela tem o parâmetro stratify que podemos utilizar para informar que queremos uma saída estratificada e qual coluna deve ser usada para a estratificação. No caso do StratifiedKFold não vi esse parâmetro, então fiquei na dúvida: como ele sabe qual coluna deve ser usada na estratificação? Como podemos informar ao StratifiedKFold caso a gente queira que a estratificação seja baseada em outra coluna?

Obrigado.

1 resposta
solução!

Oi, Matheus! Tudo bom?

No caso do StratifiedKFold, ele utiliza a variável alvo (ou seja, o que queremos prever) para realizar a estratificação dos dados. No exemplo construído em aula, a estratificação é feita com base na variável y que passamos para a função cross_validate.

Se quisermos que a estratificação seja baseada em outra coluna, precisaremos passar essa coluna como o vetor y ao trabalhar com o cross_validate.

Caso queira saber um pouco mais sobre este assunto, recomendo a leitura do material abaixo:

A página encontra-se em inglês, se você não possui familiaridade com este idioma, é possível clicar com o botão direito do mouse sobre a tela e escolher a opção de traduzir para o português! :)

Espero ter ajudado, Matheus! Qualquer dúvida, estarei por aqui.

Um abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software