Olá.
Este foi um ótimo desafio, colocando a gente para praticar do começo ao fim. Estão de parabéns!
Gostaria de tirar uma dúvida sobre a etapa de balanceamento dos dados.
Este dataset estava com um alto desbalanceamento, com 91% dos dados para a classe negativa e 9% para a positiva. Isso me levou a refletir sobre aplicação de oversampling e undersampling.
Aplicar o undersampling resultaria em eliminar muitos dados da classe negativa, o que reduziria meu conjunto de dados para treinamento. Aplicar o oversampling implicaria na criação de uma quantidade muito grande de dados sintéticos, o que poderia incluir padrões errados no treinamento. Em ambos os casos, isso poderia causar um impacto no treinamento do modelo. Minha ideia então seria seguir por um meio termo com o SMOTEENN, que faz o oversampling da classe minoritária e depois aplica um undersampling em ambas as classes para remoção de "ruído" e outliers.
Por favor, poderiam dizer se minha abordagem estaria correta? O SMOTEENN seria uma estratégia boa neste caso? Existe alguma outra estratégia que atenderia bem a este caso (pensando no resultado final ao criar um modelo)?
Já fiz essa pergunta ao Google Bard, mas como se trata um pouco mais de reflexão, estou trazendo para o fórum para receber uma resposta de quem já tem experiência na área.
Obrigado!