1
resposta

Qual seria opção para o mundo real.

Com a utilização do SMOTE e a criação de dados sintéticos no mundo real seria um problema, então qual seria a melhor maneira de fazer esse balanceamento ?

1 resposta

Olá, Carlos, tudo bem?

Desculpe a demora em te responder!

No contexto apresentado, a instrutora menciona que a melhor maneira de balancear os dados é utilizando a técnica SMOTE (Synthetic Minority Over-sampling Technique). Essa técnica cria dados sintéticos com base nos vizinhos mais próximos dos valores de fraude. Dessa forma, é possível aumentar a quantidade de dados da classe minoritária sem precisar criar dados sintéticos completamente novos. Contudo, essa opção pode não ser a melhor em todos os casos, especialmente quando se trata de dados sensíveis ou quando a criação de dados sintéticos pode levar a interpretações errôneas.

Dessa forma, há outras técnicas que podemos usar para balancear os dados, dentre elas:

  • Coleta de mais dados: esta é provavelmente a melhor maneira de lidar com o desequilíbrio de classes, mas nem sempre é possível devido a restrições de tempo, orçamento e outras limitações práticas;
  • Mudança de métricas de desempenho: em vez de usar a acurácia como métrica, você pode usar outras métricas que dão uma melhor ideia do desempenho do seu modelo em dados desbalanceados, como a área sob a curva ROC (AUC-ROC), precisão, recall, pontuação F1, entre outras.
  • Uso de técnicas de ensemble: as técnicas de ensemble, como o bagging e o boosting, podem ser usadas para melhorar o desempenho do modelo em dados desbalanceados.

Lembre-se, não existe uma solução única para todos os casos. A melhor abordagem depende do seu conjunto de dados específico e do problema que você está tentando resolver.

Espero ter ajudado. Caso tenha dúvidas, não hesite em postar no fórum!

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!