1
resposta

Regressão Linear Múltipla - Variáveis Qualitativas

Estou com o seguinte cenário, possuo 22 variáveis no meu modelo, todas elas são qualitativas. Sei que variáveis quali temos que dummyzá-las para o correto funcionamento. No entanto, não consigo achar uma fórmula para calcular a correlação entre as mesmas, pois a função de correlação espera somente variáveis qualitativas. Gostaria de saber qual a melhor técnica para que eu possa rodar o meu modelo e conseguir identificar quais são as melhores variáveis para compor meu modelo. Obrigado

1 resposta

Olá Douglas, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Caso você tenha somente variáveis qualitativas no seu conjunto de dados, não conseguirá realizar uma regressão linear. Ainda que transforme suas variáveis em variáveis do tipo dummy, não conseguirá calcular a correlação entre essas variáveis de maneira apropriada, pois o resultado gerado não será correto do ponto de vista teórico e nem terá uma interpretação que faça sentido do ponto de vista prático. A correlação é calculada somente entre variáveis quantitativas e pode ser calculada entre uma variável binária com uma variável quantitativa, mas não entre variáveis binárias.

Você pode utilizar outro tipo de modelo quando tiver utilizando somente variáveis qualitativas. Você pode tentar utilizar a árvore de decisão ou a análise de correspondências, conhecido como ANACOR para a simples e ACM para múltipla, o que vai depender do seu objetivo final.

Caso queira aprender sobre a Árvores de Decisão, pode dar uma olhada no curso Árvores de Decisão: Aprofundando em modelos de Machine Learning

Espero que tenha ajudado.

Bons estudos!