Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Como lidar com Clusters para variáveis categóricas?

Olá!

Existe algum método ou melhor jeito de fazer clusters para variáveis categóricas? Fiz os cursos iniciais de clusters em machine learning, mas estes eram mais voltados para variáveis numéricas. Gostaria de saber como lidar com variáveis categóricas e como escolher aquelas que podem ser mais influentes na clusterização.

Por exemplo, tenho uma base de empresas em que cada uma delas possui atividade(s) diversa(s) (CNAEs). Para clusterização, usei colunas para cada atividade contendo 1 (um) se a empresa possuía tal atividade. O problema foi a grande quantidade de memória que isso exigia. Dessa forma, pré-selecionei as atividades mais comuns. No entanto, as atividades mais comuns no conjunto não são necessariamente as mais comuns em cada cluster e, de igual forma, não estaria lidando com o desbalanceamento de empresas diferentes. Como pré-selecionar as atividades, variáveis categóricas, e fazer a clusterização de um jeito mais otimizado??

3 respostas
solução!

Oi, Ingrid! Tudo bem com você? Espero que sim!

Muito interessante sua aplicação, respondendo a primeira pergunta, felizmente existem modelos de cluster especiais para variáveis categóricas, um deles é o KModes que acho que pode ser interessante para seu caso. Ele usa as diferenças entre as características presentes nos dados, de forma que, quanto menores as diferenças, mais semelhantes são os dados. Vou deixar o link para a documentação do kmodes para você já revisar e instalar essa biblioteca.

Já sobre a segunda pergunta, eu vou deixar aqui dois exemplos de pré-seleção e tratamentos das variáveis categóricas e como implementar esses dados ao cluster KModes. São dois artigos que explicam o que é o KModes fazem uma aplicação bem didática com essa biblioteca. O primeiro artigo é intitulado KModes Clustering Algorithm for Categorical data (em português, Algoritmo de Clustering KModes para dados categóricos), que faz uma ótima explicação do que é e como funciona o Kmodes e faz uma aplicação bem simples, como uma introdução para esse cluster. O segundo artigo é intitulado The k-modes as Clustering Algorithm for Categorical Data Type (em português, O K-modes como algoritmo de cluster para dados do tipo categórico), que se aprofunda mais na aplicação do cluster e em como preparar os dados para ele. OBS: Infelizmente os artigos estão em inglês, então, caso tenha dificuldade em relação a este idioma, indico que tente utilizar o tradutor do navegador, para conseguir efetuar a leitura em português, mas qualquer dúvida ou dificuldade estarei à disposição.

Recomendo bastante o estudo dos artigos na ordem dada, pois vão te fornecer uma ótima base para sua aplicação com variáveis categóricas além de explicar como tratar e selecionar os dados.

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Muito obrigada pela atenção na resposta, Mirla! Desculpa responder só agora... Não havia visto nas atualizações da plataforma.

Sobre suas recomendações quanto ao K-Modes, vou lê-las e tentar aplicá-las no projeto.

Abraços, Ingrid

Muito obrigada pela atenção na resposta, Mirla! Desculpa responder só agora... Não havia visto nas atualizações da plataforma.

Sobre suas recomendações quanto ao K-Modes, vou lê-las e tentar aplicá-las no projeto.

Abraços, Ingrid