Olá, quando podemos considerar os dados desbalanceados? Existe algum critério ou método para se avaliar a necessidade de aplicação o oversampling/undersampling?
Olá, quando podemos considerar os dados desbalanceados? Existe algum critério ou método para se avaliar a necessidade de aplicação o oversampling/undersampling?
Olá, Fabricio! Tudo bem com você?
Segundo a publicação "Imbalanced Data" no site Google Developers, temos que:
Grau de desequilíbrio | Proporção da Classe Minoritária |
---|---|
Suave | 20-40% do conjunto de dados |
Moderado | 1-20% do conjunto de dados |
Extremo | <1% do conjunto de dados |
Lembrando que:
Classes majoritárias: Classe que está em maior quantidade na feature target.
Classes minoritária: Classe que está em menor quantidade na feature target.
Qualquer dúvida estou à disposição.
Abraços.
Mais claro impossível, muito obrigado!!!