1
resposta

[Dúvida] Balanceamento da variável target

Durante os vídeos da aula 1, a instrutora mostrou que o dataset utilizado estava com variável target estava desbalanceada 73,46% (Not Churn) enquanto 26,53% (Churn). Então, ela utilizou a técnica SMOTE para realizar o balanceamento da variável target no dataframe. Resultando em 50% Not Churn e 50% Churn.

Entretanto, estou com dúvida se isso está corretou ou não, pois a taxa de Churn pode ser 26%, como os dados mostravam, e agora temos uma taxa de 50%. Como que modificar 24% de clientes Not Churn para Churn, ajuda o modelo a performar melhor?

1 resposta

Se eu entendi certo, você não modifica clientes que eram "not churn"para "churn", você cria novos clientes "churn" com características semelhantes aos já existentes.

IConjunto de dados antes do balanceamento

A imagem acima é o conjunto de dados antes do balanceamento

Conjunto de dados após o SMOTE

E essa é após o smote.

Repare que na primeira imagem, temos aproximadamente 7000 dado (somando laranja e azul), na segunda imagem, a soma do azul com laranja dá 10000, os novos 3000 (mais ou menos) são criados no processo do smote. Posso ter falado algo errado, mas acredito que seja mais ou menos isso, espero ter ajudado.