Faça como eu fiz: aplicando técnicas de aprendizado não supervisionado

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

3
respostas

por Estudante

| 40.7k xp | 146 posts

Primeira etapa: carregamento do dataset Iris

from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

Segunda etapa: aplicação de K-Means

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X)

Terceira etapa: aplicação de Hierarchical Clustering

from scipy.cluster.hierarchy import linkage, dendrogram
import matplotlib.pyplot as plt

Z = linkage(X, method='ward')
plt.figure(figsize=(10, 5))
dendrogram(Z)
plt.show()

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Quarta etapa: redução de dimensionalidade com PCA

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.scatter(X_pca[:,0], X_pca[:,1], c=clusters, cmap='viridis')
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.title("Clusters com PCA")
plt.show()

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

3 respostas

por Daniel Nogueira

| 8499.9k xp | 7900 posts

Alura Scuba Team Professor Tutor @FIAP • Analista SE @Alura

1 mês atrás

Olá, Andressa! Como vai?

Parabéns pela resolução da atividade!

Vi que você explorou o K-Means para agrupamento com Python, utilizou muito bem o Hierarchical Clustering para análise de similaridade e ainda compreendeu a importância do PCA para redução de dimensionalidade.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Uma dica interessante para o futuro é aplicar a métrica de silhueta para avaliar a qualidade dos clusters. Assim:

from sklearn.metrics import silhouette_score

score = silhouette_score(X, clusters)
print("Silhouette Score:", score)

Isso faz a avaliação da separação e coesão dos grupos.

Por fim, pra complementar o conhecimento abordado nessa atividade, algumas boas práticas são:

Visualização: sempre plotar os resultados para interpretar melhor os agrupamentos.
Normalização dos dados: garante que variáveis em diferentes escalas não distorçam os resultados.
Escolha do número de clusters: usar métodos como o cotovelo ou silhueta para definir o valor ideal.

Conteúdos relacionados

Alguns materiais podem estar em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Ah, uma pergunta: Você acha mais interessante aplicar PCA antes da clusterização para melhorar a separação dos grupos ou depois apenas para visualização dos resultados?

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

por Estudante

| 40.7k xp | 146 posts

1 mês atrás

Oi, Daniel!

Muito obrigada pelo retorno!

por Daniel Nogueira

| 8499.9k xp | 7900 posts

Alura Scuba Team Professor Tutor @FIAP • Analista SE @Alura

4 semanas atrás

Olá, Estudante! Tudo bem?

Fico feliz que tenha curtido meu feedback!

Agradeço pela confiança e desejo que siga firme, aplicando cada aprendizado em sua jornada.

Forte abraço e bons estudos por aí!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP