1
resposta

[Projeto] lidando com dados sem rótulo

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
from sklearn.preprocessing import OneHotEncoder
from sklearn.cluster import KMeans

url = 'https://raw.githubusercontent.com/alura-cursos/Clusterizacao-dados-sem-rotulo/main/Dados/dados_mkt.csv'
df = pd.read_csv(url)

encoder = OneHotEncoder(categories=[['F','M','NE']], sparse_output=False)
encoded = encoder.fit_transform(df[['sexo']])

encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['sexo']))
dados = pd.concat([df, encoded_df], axis=1).drop('sexo', axis=1)

joblib.dump(encoder, 'encoder.pkl')

modelo = KMeans(n_clusters=2, random_state=45)
modelo.fit(dados)

dados['cluster'] = modelo.labels_
print(dados.head())

1 resposta

Olá, Moacir! Como vai?

Parabéns pela resolução da atividade!

Observei que você explorou o uso do OneHotEncoder para transformar variáveis categóricas em representações numéricas com Python, utilizou muito bem o KMeans para agrupar consumidores em clusters e ainda compreendeu a importância do joblib para salvar artefatos técnicos e garantir reprodutibilidade dos experimentos.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Sugestão de conteúdo para você mergulhar ainda mais no tema:

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

AluraConte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!