Seu objetivo é prever o churn (abandono de clientes) de um banco de dados fictício de uma instituição financeira. Para isso são fornecidos dois datasets: um dataset chamado Abandono_clientes composto por 10000 linhas e 13 colunas de informação (features), sendo uma coluna “Exited” composta por dados binários: 1 se o cliente abandonou o banco, 0 se não. O segundo dataset possui 1000 linhas e 12 colunas e não possui a coluna “Exited”. Seu objetivo é prever essa coluna a partir dos dados enviados e nos enviar para avaliação dos resultados. Atividades:
- Descreva graficamente os dados disponíveis, apresentando as principais estatísticas descritivas. Comente o por quê da escolha dessas estatísticas.
- Explique como você faria a previsão do Churn a partir dos dados. Quais variáveis e/ou suas transformações você utilizou e por quê? Qual tipo de problema estamos resolvendo (regressão, classificação)? Qual modelo melhor se aproxima dos dados e quais seus prós e contras? Qual medida de performance do modelo foi escolhida e por quê?
- Envie o resultado final do modelo em uma planilha com apenas duas colunas (rowNumber, predictedValues) .
Deixei no meu repositório do github os arquivos necessários para o desafio: https://github.com/rodrigowe1988/Desafio-de-Data-Science