1
resposta

[Dúvida] Variáveis categóricas

Prezados, tenho uma base apenas com valores categóricos. Posso usar o k-means? Devo normalizar os dados, uma vez que são variáveis dummies/dicotômicas? Exemplo, suponha uma base de dados de pessoas, quero encontrar clusters utilizando essas 3 variáveis categóricas grupo etário (1 se idoso, 0 caso contrário), sexo (1 se mulher, 0 caso contrário) e nível de instrução (1 se tem graduação ou mais, 0 caso contrário).

1 resposta

O k-means não é ideal para dados categóricos, como os seus, porque calcula médias que não representam categorias. Para suas variáveis dicotômicas (ex: grupo etário, sexo, nível de instrução), o k-modes é uma alternativa melhor, pois utiliza modas em vez de médias, adequando-se a dados categóricos. O k-prototypes também é uma opção, especialmente se seu dataset contiver variáveis numéricas e categóricas. Normalização não é necessária para variáveis dummy/dicotômicas.

Atenciosamente, Quemoel Barros Silva