Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Olá, Rafael! Como vai?
Entendo a sua preocupação com a variação dos valores de confiança ao usar o NearMiss.
Isso realmente pode acontecer devido à natureza randômica de alguns processos no pipeline de machine learning, especialmente quando se utiliza técnicas de amostragem e validação cruzada.
No caso do NearMiss, embora ele não seja aleatório por si só (já que seleciona amostras com base em critérios específicos), o processo de validação cruzada com StratifiedKFold pode introduzir variabilidade. Isso ocorre porque, ao usar shuffle=True, as divisões dos dados são feitas de forma aleatória, o que pode levar a diferentes resultados em cada execução.
Para garantir que os resultados sejam replicáveis, é importante definir uma random_state tanto no StratifiedKFold quanto em qualquer outro processo que possa ter elementos aleatórios. No exemplo que você mencionou, já existe uma random_state definida no StratifiedKFold, mas certifique-se de que ela está sendo aplicada corretamente em todas as partes do seu código.
Espero ter ajudado e fico à disposição se precisar.
Abraço e bons estudos!