1
resposta

[Reclamação] Conceito equivocado na análise dos clusters

Boa tarde.

Acabei de ver essa aula e acredito que haja um erro no conceito explicado.

A taxa da variância explicada pela PCA não indica o quão boa está a classificação dos clusters do KMeans. Ela apenas indica o quanto da variação dos dados originais foi mantida após a redução na dimensionalidade.

A qualidade do cluster, por outro lado, depende de como os pontos foram agrupados de acordo com suas distâncias, existem várias métricas conhecidas para medir isso (sugiro o curso "Clustering: extraindo padrões de dados" para ver mais sobre isso).

Claro que a taxa da variância explicada impacta na classificação dos dados, afinal quanto mais informação dos dados originais é mantida, mais conhecimento pode ser extraído pelo clasificador, mas isso não garante que os clusters serão bons.

Acredito que esse curso (como muitos outros na Alura) precise de uma revisão teórica mais minuciosa.

1 resposta

Olá, Miguel!

Agradeço por compartilhar sua observação sobre o conceito explicado. É muito importante termos um espaço para discussões e esclarecimentos de dúvidas.

Você está correto em afirmar que a taxa da variância explicada pela PCA não indica a qualidade da classificação dos clusters do K-Means. Essa taxa apenas nos mostra o quanto da variação dos dados originais foi mantida após a redução na dimensionalidade. A qualidade do cluster depende de como os pontos foram agrupados de acordo com suas distâncias, e existem várias métricas conhecidas para medir isso.

Agradeço por compartilhar sua sugestão de revisão teórica mais minuciosa do curso. Vou encaminhar sua observação para a equipe responsável para podermos avaliar e realizar eventuais ajustes na próxima oportunidade de regravação do curso.

Espero ter ajudado e bons estudos!