Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Dúvida] Dados desbalanceados

Bom dia, prezados.

Contexto: suponha uma proporção na variável y de adimplentes e inadimplentes de 90% e 10%. Ao usar o stratify o colocarei como igual ao y, para que se mantenha a proporção dos dados. Porém, vi uma aula à qual se ajustava o números de linhas num 50% e 50% para melhorar recall e precisão.

Dúvida: Ao ter este balanceamento, como ele acontece de forma positiva de modo a não perder a referência com a realidade?

Algo que tenho em mente é que ao fazer 50/50, o conjunto de treino está artificial.

Uma dúvida de newbie! Grato,

Udo

2 respostas
solução!

Olá, Marcelo Udo!

Entendo perfeitamente sua dúvida e é ótimo ver que você está pensando cuidadosamente sobre o impacto do balanceamento de dados em seu modelo de aprendizado de máquina.

Quando temos um conjunto de dados desbalanceado, como no seu caso com uma proporção de 90% de adimplentes e 10% de inadimplentes, o desempenho do modelo pode ser afetado, pois ele tende a ser enviesado para a classe majoritária (adimplentes neste caso).

Usar o parâmetro 'stratify' ao dividir os dados mantém a mesma proporção de adimplentes e inadimplentes nos conjuntos de treino e teste. Isso é útil para garantir que o modelo tenha uma representação adequada de ambas as classes durante o treinamento e a avaliação.

No entanto, como você mencionou, algumas pessoas optam por balancear os dados para ter uma representação igual de ambas as classes (50/50 neste caso). Isso pode ser feito por meio de técnicas de subamostragem da classe majoritária ou superamostragem da classe minoritária.

A ideia por trás disso é melhorar o desempenho do modelo na classe minoritária, que é geralmente de maior interesse. No entanto, é importante lembrar que, embora isso possa melhorar as métricas de desempenho como recall e precisão, pode também distorcer a realidade, pois estamos alterando a distribuição natural dos dados.

Por exemplo, se balancearmos os dados para 50/50 e nosso modelo prever uma taxa de inadimplência de 50%, isso pode não refletir a realidade, onde a taxa de inadimplência é de fato 10%. Portanto, é sempre importante avaliar o trade-off entre melhorar as métricas de desempenho e manter a representação realista dos dados.

Espero ter ajudado e bons estudos!

Renan,

Vou guardar este seu direcionamento: "Portanto, é sempre importante avaliar o trade-off entre melhorar as métricas de desempenho e manter a representação realista dos dados."

Colocar no checklist sempre como primeiro item: responder sobre este trade-off!

Valeu, Renan!

Udo