Black November

ATÉ 50% OFF

TÁ ACABANDO!

0 dias

0 horas

0 min

0 seg

1
resposta

Rótulo de dados nulos utilizando SSL para dados não balanceados

Quando lidamos com dados não balanceados que envolva a variável target/alvo, o semi-supervised learning -SSL, como devo proceder com dados rotulados iniciais e também quanto os dados não rotulados que eu estou tentando preencher(pseudo-rotulação)?

Matricule-se agora e aproveite até 50% OFF

O maior desconto do ano para você evoluir com a maior escola de tecnologia

QUERO APROVEITAR
1 resposta

Oi Luís, tudo bem?

Quando os seus dados estão desbalanceados, isso afeta tanto os rótulos reais quanto os pseudorrótulos gerados depois. No semi-supervisionado, a atenção ao balanceamento precisa acontecer em duas etapas diferentes.

No conjunto rotulado inicial, você trata o desbalanceamento como faria em um modelo supervisionado comum. Isso inclui técnicas como:

• undersampling,
• oversampling (ex.: SMOTE),
• uso de métricas adequadas (F1, recall),
• ajuste de pesos da classe no modelo (class_weight).

Isso garante que o primeiro modelo (aquele usado para gerar pseudorrótulos) não fique enviesado para a classe majoritária.

Depois, quando você cria os pseudorrótulos a partir desse modelo inicial, é importante não confiar cegamente em todas as previsões. Em SSL, a qualidade dos pseudorrótulos pesa mais que a quantidade. Existem duas boas práticas:

  1. Filtrar previsões por confiança: Use apenas as previsões cujo modelo está realmente seguro. Por exemplo, pegar somente exemplos onde o modelo tem probabilidade > 0.8. Isso evita reforçar o desbalanceamento original.

  2. Controlar a proporção das classes após a pseudorrotulação: Depois de gerar os pseudorrótulos, observe a distribuição. Se o modelo prever quase tudo como a classe majoritária, vale equilibrar antes de treinar o segundo modelo, usando as mesmas técnicas acima.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!