Boa tarde!
Gostaria de uma explicação mais aprofundada sobre o funcionamento do under/oversampling, como os dados são balanceados afinal?
Boa tarde!
Gostaria de uma explicação mais aprofundada sobre o funcionamento do under/oversampling, como os dados são balanceados afinal?
Entendi dessa forma, veja se te ajuda:
No vídeo "03 Importando os dados" ela executa o dados.shape
onde mostra que tem 7048 linhas, certo!
No gráfico desbalanceado, mostra a escala de contagem até 5000, sendo que os "0" são um pouco a mais que 5 mil, e os "1" um pouco a menos que 2 mil (que vai totalizar os 7 mil da amostra).
O balanceamento vai "criar" amostras contendo "1" para completar até chegar na quantidade dos "0" (pouco mais de 5 mil).
Para gerar essas linhas "fictícias", uma das técnicas usadas é a SMOTE. E uma das formas que a técnica usa é preencher as "lacunas" tomando como base um valor intermediário de dois , no exemplo "se minutos totais por dia são 129.1 e 146.3, então será criada uma amostra com os minutos totais por dia com 137.7". Digamos que precisa-se dobrar a quantidade de amostras. Nesse caso, pegaria os valores intermediários entre cada vizinho. Entre 1 e 2 surgiria a amostra "1.5", entre 2 e 3 a amostra "2.5", assim por diante até completar a quantidade.
Também li essa explicação: https://learn.microsoft.com/pt-br/azure/machine-learning/component-reference/smote