Olá, quando podemos considerar os dados desbalanceados? Existe algum critério ou método para se avaliar a necessidade de aplicação o oversampling/undersampling?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Olá, quando podemos considerar os dados desbalanceados? Existe algum critério ou método para se avaliar a necessidade de aplicação o oversampling/undersampling?
Olá, Fabricio! Tudo bem com você?
Segundo a publicação "Imbalanced Data" no site Google Developers, temos que:
| Grau de desequilíbrio | Proporção da Classe Minoritária |
|---|---|
| Suave | 20-40% do conjunto de dados |
| Moderado | 1-20% do conjunto de dados |
| Extremo | <1% do conjunto de dados |
Lembrando que:
Classes majoritárias: Classe que está em maior quantidade na feature target.
Classes minoritária: Classe que está em menor quantidade na feature target.
Qualquer dúvida estou à disposição.
Abraços.
Mais claro impossível, muito obrigado!!!