1
resposta

[Projeto] Clustering e PCA no Dataset Iris – Resumo Prático

Este roteiro aplica clustering e redução de dimensionalidade ao dataset Iris, respondendo: como identificar agrupamentos naturais e como reduzir a complexidade dos dados mantendo as informações relevantes.

O dataset Iris contém 150 amostras de três espécies de flores (Setosa, Versicolor e Virginica), com quatro características numéricas: comprimento e largura da sépala e comprimento e largura da pétala.

Pré-processamento: os dados são padronizados (média zero e desvio padrão um) para evitar que variáveis com escalas maiores dominem os resultados. Isso é essencial para K-Means e PCA.

PCA (Análise de Componentes Principais): aplica-se PCA para reduzir de 4 para 2 dimensões. As duas primeiras componentes principais explicam cerca de 95% da variância total, permitindo visualizar os dados em um gráfico de dispersão colorido pelas espécies reais. Já é possível ver uma separação clara, especialmente do Setosa.

K-Means: para definir o número ideal de clusters, usam-se o método do cotovelo (elbow) e o silhouette score. Ambos indicam K=3. Aplica-se K-Means com 3 clusters e compara-se com os rótulos reais usando o Adjusted Rand Index (ARI), que mede a similaridade entre os clusters obtidos e as espécies verdadeiras. O resultado é visualizado no espaço PCA.

Hierarchical Clustering: calcula-se a matriz de ligação (linkage) pelo método de Ward e plota-se o dendrograma. Traçando uma linha horizontal que corta a árvore em 3 ramos principais, confirma-se visualmente a estrutura de três grupos. Aplica-se então o Agglomerative Clustering com 3 clusters e também se calcula o ARI.

Comparação: ambos os algoritmos apresentam ARI muito alto (acima de 0,85), mostrando que recuperam bem a estrutura natural das espécies. O K-Means tende a formar clusters mais esféricos, enquanto o hierárquico pode capturar estruturas mais irregulares. O silhouette score também é positivo para ambos, indicando boa coesão dos clusters.

Conclusões principais: o PCA reduziu a dimensionalidade de 4 para 2 preservando 95% da variância, facilitando a visualização. O método do cotovelo e o silhouette score apontam K=3, alinhado com as três espécies reais. Ambos os algoritmos separaram bem as espécies, especialmente o Setosa, que é a mais distinta. O dendrograma evidencia claramente os três grandes grupos naturais dos dados.

Próximos desafios: testar diferentes números de clusters (k=2,4,5) e observar a mudança no ARI; rodar os algoritmos sem padronização para ver o impacto das escalas; aplicar os mesmos conceitos a outros datasets como Wine ou Digits; analisar as características médias de cada cluster para interpretar o perfil de cada grupo encontrado.

1 resposta

Olá, Marcus. Como vai?

Seu resumo prático está espetacular! Uma linha de raciocínio extremamente sólida, digna de quem lidera e compreende a importância da tomada de decisões baseada em dados. O dataset Iris é o "laboratório" perfeito para machine learning, e você cobriu o fluxo de ponta a ponta com maestria.

A escolha de aplicar a padronização (Z-score) como passo inicial foi cirúrgica. Como o K-Means baseia-se na distância euclidiana e o PCA busca direções de máxima variância, dados desalinhados em escala distorceriam completamente a geometria do problema. Você amarrou muito bem a teoria à prática ao validar as escolhas com métricas robustas de mercado, como o Silhouette Score e o Adjusted Rand Index (ARI).

Para agregar ainda mais valor ao seu excelente portfólio de IA e contribuir com o seu resumo, preparei um aprofundamento visual e conceitual sobre os dois pilares que você executou:


1. Entendendo o Fluxo do PCA e Clustering

Para consolidar como essas técnicas interagem, o pipeline que você construiu segue exatamente a estrutura de redução e agrupamento de dados de alta dimensão:

2. Por que o seu resultado de ARI foi tão alto (O Caso da Iris Setosa)

Você mencionou que o ARI ficou acima de 0,85 e que a espécie Setosa se separou de forma muito clara. No espaço geométrico do dataset Iris, a Setosa é linearmente separável das outras duas espécies (Versicolor e Virginica).

Isso significa que, mesmo antes do PCA, os atributos de pétala da Setosa não possuem sobreposição com as outras flores. O grande desafio dos seus modelos (e o motivo do ARI não ser 1.0 cravado) é a leve interseção que existe nas fronteiras entre a Versicolor e a Virginica. É exatamente nessa zona de transição que o K-Means (por criar fronteiras rígidas e esféricas, conhecidas como Células de Voronoi) comete pequenas classificações incorretas se comparado aos rótulos reais.


3. Respondendo aos seus Próximos Desafios

Suas propostas de próximos passos são excelentes provocações para testar os limites dos algoritmos. Antecipando o que você vai encontrar ao rodar esses testes, aqui estão alguns insights:

  • Rodar os algoritmos sem padronização: Você verá o ARI despencar. Se uma feature tiver valores numericamente maiores (ex: se medíssemos uma das variáveis em milímetros e outra em centímetros), o K-Means vai ignorar a variável menor, tratando-a como "ruído", mesmo que ela seja a mais importante para diferenciar as espécies.
  • O impacto de mudar K (K=2 ou K=4): Ao forçar $K=2$, o algoritmo provavelmente vai fundir Versicolor e Virginica em um único grande grupo, mantendo a Setosa isolada (devido à sua alta distância biológica). Ao forçar $K=4$, ele quebrará uma das espécies legítimas ao meio, gerando subgrupos baseados em variações sutis de tamanho que não correspondem à taxonomia real.

Parabéns pela qualidade técnica do post. Compartilhar um roteiro tão limpo e bem documentado eleva muito o nível das discussões no nosso fórum!

Espero que possa ter lhe ajudado!