Este roteiro aplica clustering e redução de dimensionalidade ao dataset Iris, respondendo: como identificar agrupamentos naturais e como reduzir a complexidade dos dados mantendo as informações relevantes.
O dataset Iris contém 150 amostras de três espécies de flores (Setosa, Versicolor e Virginica), com quatro características numéricas: comprimento e largura da sépala e comprimento e largura da pétala.
Pré-processamento: os dados são padronizados (média zero e desvio padrão um) para evitar que variáveis com escalas maiores dominem os resultados. Isso é essencial para K-Means e PCA.
PCA (Análise de Componentes Principais): aplica-se PCA para reduzir de 4 para 2 dimensões. As duas primeiras componentes principais explicam cerca de 95% da variância total, permitindo visualizar os dados em um gráfico de dispersão colorido pelas espécies reais. Já é possível ver uma separação clara, especialmente do Setosa.
K-Means: para definir o número ideal de clusters, usam-se o método do cotovelo (elbow) e o silhouette score. Ambos indicam K=3. Aplica-se K-Means com 3 clusters e compara-se com os rótulos reais usando o Adjusted Rand Index (ARI), que mede a similaridade entre os clusters obtidos e as espécies verdadeiras. O resultado é visualizado no espaço PCA.
Hierarchical Clustering: calcula-se a matriz de ligação (linkage) pelo método de Ward e plota-se o dendrograma. Traçando uma linha horizontal que corta a árvore em 3 ramos principais, confirma-se visualmente a estrutura de três grupos. Aplica-se então o Agglomerative Clustering com 3 clusters e também se calcula o ARI.
Comparação: ambos os algoritmos apresentam ARI muito alto (acima de 0,85), mostrando que recuperam bem a estrutura natural das espécies. O K-Means tende a formar clusters mais esféricos, enquanto o hierárquico pode capturar estruturas mais irregulares. O silhouette score também é positivo para ambos, indicando boa coesão dos clusters.
Conclusões principais: o PCA reduziu a dimensionalidade de 4 para 2 preservando 95% da variância, facilitando a visualização. O método do cotovelo e o silhouette score apontam K=3, alinhado com as três espécies reais. Ambos os algoritmos separaram bem as espécies, especialmente o Setosa, que é a mais distinta. O dendrograma evidencia claramente os três grandes grupos naturais dos dados.
Próximos desafios: testar diferentes números de clusters (k=2,4,5) e observar a mudança no ARI; rodar os algoritmos sem padronização para ver o impacto das escalas; aplicar os mesmos conceitos a outros datasets como Wine ou Digits; analisar as características médias de cada cluster para interpretar o perfil de cada grupo encontrado.