Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Modelo desbalanceado

tenho um modelo com 115 mil instancias e uma das colunas é uma booleana como marcador se 'usuário entrou ou não', meu problema é que destas instancias apenas 19 das 115 mil são False, todas as outras são True. Qual seria o melhor método para analisar um padrão para poder fazer uma predição baseada nesses dados?

1 resposta
solução!

Bom dia Fernanda,

Esse é um problema bem difícil. Eu diria que a melhor alternativa é mexer na base de dados. O que você pode fazer é uma subamostragem: Tente excluir aleatoriamente a classe que tem observações suficientes para que a proporção comparativa de duas classes seja significativa. Embora esta abordagem seja realmente simples de seguir, há uma grande possibilidade de que os dados que estamos excluindo possam conter informações importantes sobre a classe preditiva.

Esse vídeo está em inglês, mas é algo visual e acredito que não vá ter dificuldades. https://www.youtube.com/watch?v=ocOlm73HeNs Ele está fazendo o mesmo que fizemos nas aulas onde aplicamos um filtro para fazer a subamostragem. O filtro usado é o SpreadSubsample.

Outra alternativa é construir artificialmente novas instâncias False. Isso é algo que vai depender muito do problema que está trabalhando. Por isso, não conheço nada no weka que faça esse trabalho. Nesse caso, você vai precisar pensar em como modelar novas instâncias para o seu problema onde tenha certeza absoluta que o resultado será False.

Quanto a qual método usar eu diria que os de árvore de decisão costumam ter uma performance mais adequada. Mas não deixe de mexer na base de dados.