Olá, pessoal!
Nesta atividade, trabalhei com uma base de dados de marketing sem rótulos, ou seja, sem uma coluna de resposta previamente definida. A proposta foi preparar esses dados para um modelo de aprendizado não supervisionado, com o objetivo de identificar possíveis agrupamentos entre consumidores com características semelhantes.
Durante o desenvolvimento, realizei a importação das bibliotecas necessárias, carreguei o dataset com pandas e fiz uma análise inicial da estrutura dos dados. Nessa etapa, identifiquei que a coluna sexo possuía valores categóricos, como F, M e NE, sendo necessário convertê-la para um formato numérico antes de utilizá-la no modelo.
Para isso, apliquei a técnica de One-Hot Encoding, transformando cada categoria em uma coluna binária. Em seguida, concatenei essas novas colunas ao DataFrame original e removi a coluna textual, deixando a base preparada para o treinamento.
Também salvei o encoder treinado utilizando joblib, pensando em um cenário mais próximo do uso real, onde a mesma transformação precisa ser reutilizada em novos dados.
Por fim, treinei um modelo de clusterização com KMeans, configurando dois agrupamentos e uma semente aleatória fixa para garantir reprodutibilidade. Após o treinamento, adicionei ao DataFrame uma coluna com o cluster atribuído a cada registro, permitindo uma análise inicial dos grupos encontrados.
Essa atividade foi importante para reforçar o entendimento sobre aprendizado não supervisionado, principalmente em situações onde não temos uma resposta correta previamente conhecida, mas queremos encontrar padrões escondidos nos dados.
Link do repositório:
https://github.com/Moquiuti/Clusteriza-o-Lidando-com-dados-sem-r-tulo/blob/main/atividade_clusterizacao.py