Dados desbalanceados

WILLIANS THOMAZ DA SILVA · 2023-02-14 16:56

Boa tarde! Gostaria de uma explicação mais aprofundada sobre o funcionamento do under/oversampling, como os dados são balanceados afinal?

Entendi dessa forma, veja se te ajuda:

No vídeo "03 Importando os dados" ela executa o dados.shape onde mostra que tem 7048 linhas, certo!

No gráfico desbalanceado, mostra a escala de contagem até 5000, sendo que os "0" são um pouco a mais que 5 mil, e os "1" um pouco a menos que 2 mil (que vai totalizar os 7 mil da amostra).

O balanceamento vai "criar" amostras contendo "1" para completar até chegar na quantidade dos "0" (pouco mais de 5 mil).

Para gerar essas linhas "fictícias", uma das técnicas usadas é a SMOTE. E uma das formas que a técnica usa é preencher as "lacunas" tomando como base um valor intermediário de dois , no exemplo "se minutos totais por dia são 129.1 e 146.3, então será criada uma amostra com os minutos totais por dia com 137.7". Digamos que precisa-se dobrar a quantidade de amostras. Nesse caso, pegaria os valores intermediários entre cada vizinho. Entre 1 e 2 surgiria a amostra "1.5", entre 2 e 3 a amostra "2.5", assim por diante até completar a quantidade.

Também li essa explicação: https://learn.microsoft.com/pt-br/azure/machine-learning/component-reference/smote

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP