1
resposta

Centróide - Dados padronizados x não padronizados

No vídeo "Normalização Sklearn" é recomendado tratar os dados padronizando-os, quando as escalas das variáveis são distintas, antes de agrupar. Mesmo com escalas diferentes o agrupamento foi realizado com os dados originais (conforme o vídeo "Analisando os Clusters em 3 dimensões"), o que fica perceptível por meio das escalas dos eixos dos gráficos em 3D exibidos pelo instrutor. Não seria o caso de ajustar os vídeos para que sejam executados nos exemplos o que é indicado como teoria?

1 resposta

Olá, Alex! Tudo bem com você?

Você está correto em sua observação. É fundamental escalonar as características de entrada antes de executar algoritmos de clusterização, ou esses algoritmos terão desempenho precários, logo os dados utilizados deveriam ser os dados normalizados.

Um novo curso sobre clusterização sairá em breve ajustando esses pontos e adicionando outros bem interessantes.

Abraços.