Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Olá, Rafael! Como vai?
Entendo a sua preocupação com a variação dos valores de confiança ao usar o NearMiss.
Isso realmente pode acontecer devido à natureza randômica de alguns processos no pipeline de machine learning, especialmente quando se utiliza técnicas de amostragem e validação cruzada.
No caso do NearMiss, embora ele não seja aleatório por si só (já que seleciona amostras com base em critérios específicos), o processo de validação cruzada com StratifiedKFold
pode introduzir variabilidade. Isso ocorre porque, ao usar shuffle=True
, as divisões dos dados são feitas de forma aleatória, o que pode levar a diferentes resultados em cada execução.
Para garantir que os resultados sejam replicáveis, é importante definir uma random_state
tanto no StratifiedKFold
quanto em qualquer outro processo que possa ter elementos aleatórios. No exemplo que você mencionou, já existe uma random_state
definida no StratifiedKFold
, mas certifique-se de que ela está sendo aplicada corretamente em todas as partes do seu código.
Espero ter ajudado e fico à disposição se precisar.
Abraço e bons estudos!