Boa tarde,
No exemplo da aula o professor utilizou alguns algoritimos como Regressão Logística, Árvore de decisão e Random Forest a fim de obter uma previsão de clientes Churn e Não-Churn. No exemplo da aula a base estava bem distribuída entre as 2 categorias acima, dessa forma, os modelos puderam aprender os padrões e retornar resultados satisfatórios.
Contudo, e se essa distribuição de categorias fosse em um cenário em que teríamos clientes Não-Churn - 10.000 e clientes Churn - 250? Meu objetivo é identificar justamente clientes Churn, contudo , a minha amostra para essa classe é baixa. Quais sugestões eu poderia fazer?
Acredito que balancear as amostras para obter o cenário de: Não-Churn - 250 e Churn - 250 acabaria impactando na aprendizagem dos modelos.