[Projeto] lidando com dados sem rótulo

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
from sklearn.preprocessing import OneHotEncoder
from sklearn.cluster import KMeans

url = 'https://raw.githubusercontent.com/alura-cursos/Clusterizacao-dados-sem-rotulo/main/Dados/dados_mkt.csv'
df = pd.read_csv(url)

encoder = OneHotEncoder(categories=[['F','M','NE']], sparse_output=False)
encoded = encoder.fit_transform(df[['sexo']])

encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['sexo']))
dados = pd.concat([df, encoded_df], axis=1).drop('sexo', axis=1)

joblib.dump(encoder, 'encoder.pkl')

modelo = KMeans(n_clusters=2, random_state=45)
modelo.fit(dados)

dados['cluster'] = modelo.labels_
print(dados.head())

Olá, Moacir! Como vai?

Parabéns pela resolução da atividade!

Observei que você explorou o uso do OneHotEncoder para transformar variáveis categóricas em representações numéricas com Python, utilizou muito bem o KMeans para agrupar consumidores em clusters e ainda compreendeu a importância do joblib para salvar artefatos técnicos e garantir reprodutibilidade dos experimentos.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Sugestão de conteúdo para você mergulhar ainda mais no tema:

[Documentação] - KMeans no Scikit-learn

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP