Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Parece existir mais algum item randômico que precise de um seed quando usamos o NearMiss. Os valores de confiança estão variando a cada execução.
Olá, Rafael! Como vai?
Entendo a sua preocupação com a variação dos valores de confiança ao usar o NearMiss.
Isso realmente pode acontecer devido à natureza randômica de alguns processos no pipeline de machine learning, especialmente quando se utiliza técnicas de amostragem e validação cruzada.
No caso do NearMiss, embora ele não seja aleatório por si só (já que seleciona amostras com base em critérios específicos), o processo de validação cruzada com StratifiedKFold pode introduzir variabilidade. Isso ocorre porque, ao usar shuffle=True, as divisões dos dados são feitas de forma aleatória, o que pode levar a diferentes resultados em cada execução.
Para garantir que os resultados sejam replicáveis, é importante definir uma random_state tanto no StratifiedKFold quanto em qualquer outro processo que possa ter elementos aleatórios. No exemplo que você mencionou, já existe uma random_state definida no StratifiedKFold, mas certifique-se de que ela está sendo aplicada corretamente em todas as partes do seu código.
Espero ter ajudado e fico à disposição se precisar.
Abraço e bons estudos!