Centróide - Dados padronizados x não padronizados | Clustering: k-means, DBSCAN e mean shift

1
resposta

Referente ao curso Clustering: k-means, DBSCAN e mean shift

por Alex Barbosa Dorea

| 36.5k xp | 1 posts

No vídeo "Normalização Sklearn" é recomendado tratar os dados padronizando-os, quando as escalas das variáveis são distintas, antes de agrupar. Mesmo com escalas diferentes o agrupamento foi realizado com os dados originais (conforme o vídeo "Analisando os Clusters em 3 dimensões"), o que fica perceptível por meio das escalas dos eixos dos gráficos em 3D exibidos pelo instrutor. Não seria o caso de ajustar os vídeos para que sejam executados nos exemplos o que é indicado como teoria?

1 resposta

por Bruno Raphaell

| 366.6k xp | 449 posts

22/06/2022

Olá, Alex! Tudo bem com você?

Você está correto em sua observação. É fundamental escalonar as características de entrada antes de executar algoritmos de clusterização, ou esses algoritmos terão desempenho precários, logo os dados utilizados deveriam ser os dados normalizados.

Um novo curso sobre clusterização sairá em breve ajustando esses pontos e adicionando outros bem interessantes.

Abraços.