Olá, Marcelo Udo!
Entendo perfeitamente sua dúvida e é ótimo ver que você está pensando cuidadosamente sobre o impacto do balanceamento de dados em seu modelo de aprendizado de máquina.
Quando temos um conjunto de dados desbalanceado, como no seu caso com uma proporção de 90% de adimplentes e 10% de inadimplentes, o desempenho do modelo pode ser afetado, pois ele tende a ser enviesado para a classe majoritária (adimplentes neste caso).
Usar o parâmetro 'stratify' ao dividir os dados mantém a mesma proporção de adimplentes e inadimplentes nos conjuntos de treino e teste. Isso é útil para garantir que o modelo tenha uma representação adequada de ambas as classes durante o treinamento e a avaliação.
No entanto, como você mencionou, algumas pessoas optam por balancear os dados para ter uma representação igual de ambas as classes (50/50 neste caso). Isso pode ser feito por meio de técnicas de subamostragem da classe majoritária ou superamostragem da classe minoritária.
A ideia por trás disso é melhorar o desempenho do modelo na classe minoritária, que é geralmente de maior interesse. No entanto, é importante lembrar que, embora isso possa melhorar as métricas de desempenho como recall e precisão, pode também distorcer a realidade, pois estamos alterando a distribuição natural dos dados.
Por exemplo, se balancearmos os dados para 50/50 e nosso modelo prever uma taxa de inadimplência de 50%, isso pode não refletir a realidade, onde a taxa de inadimplência é de fato 10%. Portanto, é sempre importante avaliar o trade-off entre melhorar as métricas de desempenho e manter a representação realista dos dados.
Espero ter ajudado e bons estudos!