Boa tarde!
Gostaria de uma explicação mais aprofundada sobre o funcionamento do under/oversampling, como os dados são balanceados afinal?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Boa tarde!
Gostaria de uma explicação mais aprofundada sobre o funcionamento do under/oversampling, como os dados são balanceados afinal?
Entendi dessa forma, veja se te ajuda:
No vídeo "03 Importando os dados" ela executa o dados.shape onde mostra que tem 7048 linhas, certo!
No gráfico desbalanceado, mostra a escala de contagem até 5000, sendo que os "0" são um pouco a mais que 5 mil, e os "1" um pouco a menos que 2 mil (que vai totalizar os 7 mil da amostra).
O balanceamento vai "criar" amostras contendo "1" para completar até chegar na quantidade dos "0" (pouco mais de 5 mil).
Para gerar essas linhas "fictícias", uma das técnicas usadas é a SMOTE. E uma das formas que a técnica usa é preencher as "lacunas" tomando como base um valor intermediário de dois , no exemplo "se minutos totais por dia são 129.1 e 146.3, então será criada uma amostra com os minutos totais por dia com 137.7". Digamos que precisa-se dobrar a quantidade de amostras. Nesse caso, pegaria os valores intermediários entre cada vizinho. Entre 1 e 2 surgiria a amostra "1.5", entre 2 e 3 a amostra "2.5", assim por diante até completar a quantidade.
Também li essa explicação: https://learn.microsoft.com/pt-br/azure/machine-learning/component-reference/smote