1. Carregando o dataset
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(
iris.data,
columns=iris.feature_names
)
print(df.head())
2. Aplicando o K-Means
Utilizei o algoritmo K Means para agrupar as flores em três grupos.
from sklearn.cluster import KMeans
kmeans = KMeans(
n_clusters=3,
random_state=42
)
grupos = kmeans.fit_predict(iris.data)
df["grupo_kmeans"] = grupos
print(df.head())
3. Aplicando o Hierarchical Clustering
Depois, utilizei o agrupamento hierárquico para comparar os resultados.
from sklearn.cluster import AgglomerativeClustering
hierarquico = AgglomerativeClustering(
n_clusters=3
)
df["grupo_hierarquico"] = hierarquico.fit_predict(
iris.data
)
print(df.head())
4. Reduzindo a dimensionalidade com PCA
Por fim, apliquei o PCA para reduzir as quatro características originais para duas dimensões.
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
componentes = pca.fit_transform(
iris.data
)
df["PCA_1"] = componentes[:,0]
df["PCA_2"] = componentes[:,1]
print(df.head())