[Dúvida] [Spark-Classificação][Árvore de decisão]

Boa tarde,

No exemplo da aula o professor utilizou alguns algoritimos como Regressão Logística, Árvore de decisão e Random Forest a fim de obter uma previsão de clientes Churn e Não-Churn. No exemplo da aula a base estava bem distribuída entre as 2 categorias acima, dessa forma, os modelos puderam aprender os padrões e retornar resultados satisfatórios.

Contudo, e se essa distribuição de categorias fosse em um cenário em que teríamos clientes Não-Churn - 10.000 e clientes Churn - 250? Meu objetivo é identificar justamente clientes Churn, contudo , a minha amostra para essa classe é baixa. Quais sugestões eu poderia fazer?

Acredito que balancear as amostras para obter o cenário de: Não-Churn - 250 e Churn - 250 acabaria impactando na aprendizagem dos modelos.

Olá Lucas, tudo bem?

Entendo sua preocupação, é realmente um desafio quando temos um desequilíbrio de classes em nossos dados, como no caso que você mencionou com muitos mais clientes Não-Churn do que Churn. Esse curso cobre bem a questão de desbalanceamento dos dados: https://cursos.alura.com.br/course/classificacao-validacao-modelos-metricas-avaliacao

Porém, existem algumas estratégias que você pode considerar:

Oversampling da classe minoritária: Nesse caso, você aumentaria a quantidade de amostras da classe Churn em seus dados de treinamento. Isso pode ser feito de várias maneiras, como duplicando amostras ou criando novas amostras sintéticas (por exemplo, usando uma técnica chamada SMOTE).
Undersampling da classe majoritária: Aqui, você reduziria a quantidade de amostras da classe Não-Churn em seus dados de treinamento. Isso pode ser útil se você tiver uma quantidade muito grande de dados e não se importar em perder alguma informação. Mas sim isso pode gerar um impacto negativo na resposta.
Uso de métricas de avaliação adequadas: Quando temos um desequilíbrio de classes, a acurácia pode não ser uma boa métrica para avaliar o desempenho do modelo. Em vez disso, você pode querer usar outras métricas, como a área sob a curva ROC (AUC-ROC), precisão, recall, ou a média harmônica entre precisão e recall (F1-score).
Uso de algoritmos de aprendizado de máquina que lidam bem com classes desbalanceadas: Alguns algoritmos, como árvores de decisão e florestas aleatórias (Random Forest), podem lidar relativamente bem com classes desbalanceadas. Você pode também considerar o uso de algoritmos que são especificamente projetados para lidar com classes desbalanceadas, como o XGBoost.
Ajuste dos pesos das classes: Alguns algoritmos de aprendizado de máquina permitem que você atribua pesos diferentes para diferentes classes. Isso pode ser útil se você quiser que o algoritmo dê mais atenção à classe Churn.

Lembre-se, é importante experimentar diferentes abordagens e avaliar qual funciona melhor para o seu caso específico. Espero ter ajudado e bons estudos!

Importante

[Dúvida] [Spark-Classificação][Árvore de decisão]

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP