[Dúvida] Como definir o K? | Machine Learning: classificação por trás dos panos

Olá, Gustavo! Tudo bom? Espero que sim!

No processo de melhoria dos modelos de Machine Learning, é muito comum a troca dos hiperparâmetros para buscar uma melhoria de performance, ou resolver problemas de underfitting ou overfitting.

Na biblioteca Scikit Learn, nós podemos construir um processo faça uma experimentação de vários valores diferentes para os parâmetros, utilizando técnicas como o GridSearch, que vai percorrer uma lista de valores para os parâmetros, e fazer o treinamento com cada combinação de valores, e verificar a pontuação alcançada por cada um deles.

Tudo que é necessário fazer é a construção do modelo, separação dos dados, e o treinamento da GridSearch com os hiperparâmetros especificados.

Na aula "05. Melhorando o modelo" do curso Modelos preditivos em dados: detecção de fraude, é utilizada uma técnica semelhante, chamada Randomized Search, que é ligeiramente diferente da Grid Search, pois testa apenas poucas combinações dos valores dados, mas o funcionamento é o mesmo. Nessa aula, é mostrada como melhorar um modelo de RandomForest fazendo uma combinação de vários valores para os hiperparâmetros.

E no final do treinamento dessas técnicas, você pode extrair um atributo chamado best_params_, que vai te entregar os melhores parâmetros encontrados com base no score.

Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!