1
resposta

K-Means, DBSCAN e MeanShift versus alta dimensionalidade

Para este exemplo está sendo dito que além do coeficiente de silhueta ser o maior para K-Means, provavelmente o DBSCAN e o MeanShift não foram escolhidos porque os dados possuem alta dimensionalidade. Eu discordo porque se o critério é dimensionalidade, como explicado em aulas anteriores, o K-Means também não trabalha bem, ou seja, pelo que entendi nas aulas, nenhum dos 3 métodos trabalha bem quando os dados possuem alta dimensionalidade. Estou errado? Por gentileza, seu suporte. Obrigado!!!

1 resposta

Oii Itamar, tudo bem contigo? Espero que sim!

Você está correto, na verdade os métodos de clustering tem alguns problemas de trabalhar com alta dimensionalidade e para que seja possível um resultado melhor é necessário aplicar métodos de redução de dimensionalidade, como por exemplo o PCA ou T-SNE. O conceito de distância torna-se menos preciso à medida que o número de dimensões aumenta, uma vez que a distância entre quaisquer dois pontos em um determinado conjunto de dados converge, um artigo interessante que você pode ler sobre isso é o How to cluster in High Dimensions, ele está em inglês mas você pode traduzir se necessário!

Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software