Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Oversampling x Stratification

Olá boa tarde! Venho de uma sequência de estudos na formação de Machine Learn e anteriormente foi apresentado o parâmetro stratify do método train_test_split da biblioteca sklearn nos seus módulos de model_selection, o conceito apresentado de oversampling (ou undersampling) é para que não fiquemos "reféns" dos argumentos da bibliotecas? Outra questão, existe alguma relação entre os dois conceitos Stratification e Oversampling?

2 respostas
solução!

Olá, Ruan! Tudo bem com você?

O parâmetro stratify irá manter uma proporção na separação das classes, conforme explico no tópico "sobre stratifiedKfold", porém utilizar essa técnica não é tão interessante quando os seus dados estão muito desbalanceados. Suponha que você tenha 10% do conjunto de dados da classe 1 e 90% da classe 0, quando utilizar o stratify essa proporção será mantida e o problema do balanceamento não será resolvido, pois você ainda continuará treinando seu conjunto de dados com 10% da classe 1.

O oversampling ou undersampling surge para resolver esse problema da proporção, balanceando a classe minoritária, como mostrado em Faça como eu fiz: dados desbalanceados.

Qualquer dúvida estou à disposição.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

Opa mestre obrigado pela resposta, eu não tinha compreendido a diferença entre desbalanceamento e proporção! Esclareceu muito mesmo!