Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Como definir o K?

Por padrão foi deixado o valor de 5 para K no exemplo da aula. Como eu devo julgar quando alterar o K? Caso meu dataframe possua muitos dados eu suponho que seja mais interessante trabalhar com mais vizinhos, quantos vizinhos eu devo definir pra ter uma acurácia boa baseado no número de dados no dataframe? Existe alguma fórmula pra isso?

1 resposta
solução!

Olá, Gustavo! Tudo bom? Espero que sim!

No processo de melhoria dos modelos de Machine Learning, é muito comum a troca dos hiperparâmetros para buscar uma melhoria de performance, ou resolver problemas de underfitting ou overfitting.

Na biblioteca Scikit Learn, nós podemos construir um processo faça uma experimentação de vários valores diferentes para os parâmetros, utilizando técnicas como o GridSearch, que vai percorrer uma lista de valores para os parâmetros, e fazer o treinamento com cada combinação de valores, e verificar a pontuação alcançada por cada um deles.

Tudo que é necessário fazer é a construção do modelo, separação dos dados, e o treinamento da GridSearch com os hiperparâmetros especificados.

Na aula "05. Melhorando o modelo" do curso Modelos preditivos em dados: detecção de fraude, é utilizada uma técnica semelhante, chamada Randomized Search, que é ligeiramente diferente da Grid Search, pois testa apenas poucas combinações dos valores dados, mas o funcionamento é o mesmo. Nessa aula, é mostrada como melhorar um modelo de RandomForest fazendo uma combinação de vários valores para os hiperparâmetros.

E no final do treinamento dessas técnicas, você pode extrair um atributo chamado best_params_, que vai te entregar os melhores parâmetros encontrados com base no score.

Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!