1
resposta

[Dúvida] Cross Validation em algoritmos de clustering

Queria entender se é possível utilizar os métodos de GridSearch ou RandomizedSearch para otimizar os parâmetros de algoritmos de clustering como KMeans, DBSCAN entre outros? Poderiam mostrar algum exemplo caso tenham? Além disso eu poderia usar Cross Validation para estimar o número de clusters ideal para meu conjunto de dados ou existem outros métodos de validação melhores para esse tipo de algoritmo?

1 resposta

E aí, Daniel!

Sobre essa dúvida massa que tu levantou, sim, dá para usar GridSearch e RandomizedSearch para tunar os parâmetros de algoritmos de clustering tipo KMeans e DBSCAN. É uma jogada inteligente para achar os valores que deixam tudo redondinho.

Quanto ao Cross Validation, é uma sacada boa também! Pode usar para estimar quantos clusters são ideais para o teu dataset. Outros métodos de validação? Até rola, mas o Cross Validation é meio que o rei nesse cenário.

Se precisar de exemplos, é só falar! Trocar ideia sobre Machine Learning é sempre maneiro.