Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Dúvida: momento de aplicação do under/oversampling

Boa noite, queria tirar uma dúvida sobre boa prática quando aplicar over ou undersampling. Em alguns tutoriais percebi que alguns aplicam under/oversampling apenas no dados de treino. Eles realizam o "train test split" e fazem o balanceamento apenas no x_train e y_train. Neste curso aplicou-se em tudo.

Tem alguma diferença prática? É uma escolha de quem vai fazer? Existe alguma regra/boa prática de quando utilizar no dataset todo ou só no conjunto de treino?

Obrigado

2 respostas

Achei a duvida do Samuel muito pertinente, também quero saber. Aguardando resposta.

solução!

Olá Samuel, tudo bem? Espero que sim!

Pode ser que o modelo tenha um bom resultado realizando o oversampling/undersampling nos dados completos, mas somente nos casos em que os dados que serão aplicados no mundo real são balanceados e você tem certeza disso. Mas como você tinha poucos dados de uma classe, gerou um desbalanceamento somente na amostra.

Já nos casos em que os dados do mundo real são desbalanceados ou você não sabe como é a distribuição, o recomendado é realizar o oversampling/undersampling somente nos dados de treinamento, para que os dados de teste mostrem o desempenho de como seria a aplicação real.

Bons estudos!