1
resposta

Balancear classes

Como faço para balancear as classes no caso de ter uma muito maior que a outra ? Por exemplo várias avaliações positivas e pouquíssimas negativas ? Como fazer para o modelo não aprender só com as positivas ?

1 resposta

Olá Igor, quando lidamos com dados desbalanceados não há uma única saída!

Uma coisa certa é que não se deve usar acurácia para medir os resultados do seu modelo, f1 é uma boa métrica para se utilizar.

Algo que você pode fazer é remover dados duplicados da classe mais numerosa. Outra coisa é buscar por mais dados para tentar balancear as classes (Essa realmente uam das melhores formas de resolver o problema, mas nem sempre é possível). Você também pode criar novos dados usando sinônimos, pode utilizar word embedding para achar os sinônimos de forma automatizada. Entre diversas de outras técnicas mais avançadas que pode utilizar.

(Curiosidade, já ví algumas pessoas usando machine translation para gerar mais dados, eles traduzem a frase do português para uma lingua qualquer e depois traduzem a frase de volta. Uma solução criativa bem interessante para aumentar o número de dados).

Att.