Oi, Ingrid! Tudo bem com você? Espero que sim!
Muito interessante sua aplicação, respondendo a primeira pergunta, felizmente existem modelos de cluster especiais para variáveis categóricas, um deles é o KModes que acho que pode ser interessante para seu caso. Ele usa as diferenças entre as características presentes nos dados, de forma que, quanto menores as diferenças, mais semelhantes são os dados. Vou deixar o link para a documentação do kmodes para você já revisar e instalar essa biblioteca.
Já sobre a segunda pergunta, eu vou deixar aqui dois exemplos de pré-seleção e tratamentos das variáveis categóricas e como implementar esses dados ao cluster KModes. São dois artigos que explicam o que é o KModes fazem uma aplicação bem didática com essa biblioteca. O primeiro artigo é intitulado KModes Clustering Algorithm for Categorical data (em português, Algoritmo de Clustering KModes para dados categóricos), que faz uma ótima explicação do que é e como funciona o Kmodes e faz uma aplicação bem simples, como uma introdução para esse cluster. O segundo artigo é intitulado The k-modes as Clustering Algorithm for Categorical Data Type (em português, O K-modes como algoritmo de cluster para dados do tipo categórico), que se aprofunda mais na aplicação do cluster e em como preparar os dados para ele. OBS: Infelizmente os artigos estão em inglês, então, caso tenha dificuldade em relação a este idioma, indico que tente utilizar o tradutor do navegador, para conseguir efetuar a leitura em português, mas qualquer dúvida ou dificuldade estarei à disposição.
Recomendo bastante o estudo dos artigos na ordem dada, pois vão te fornecer uma ótima base para sua aplicação com variáveis categóricas além de explicar como tratar e selecionar os dados.
Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.
Bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!