Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Variavéis Categoricas

Boa tarde

Consigo aplicar regressão linear em uma tabela com variáveis categóricas? Para estudo peguei uma tabela com o carregamento de alguns caminhões onde constam os nomes dos clientes e da cidade onde eles carregaram e descarregaram, tentei aplicar a regressão linear para prever a quebra no transporte mas não consegui lidar com as variáveis categóricas. Pesquisando vi a possibilidade de usar o cat.code, pode dar certo?

1 resposta
solução!

Olá Victhor, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Precisamos tomar cuidado ao utilizar variáveis categóricas em modelos de regressão linear para não acabarmos gerando interpretações erradas. A regressão linear precisa necessariamente de variáveis numéricas para funcionar. Em conjunto com as variáveis numéricas, podemos utilizar categorias somente na regressão linear múltipla através do método de transformação da variável categórica em variáveis dummy.

Caso você transforme apenas as categorias em valores numéricos, estará atribuindo valores arbitrários às categorias, e o modelo pode entender que há certa ordem entre as categorias e uma categoria ser o dobro da outra por exemplo, o que não faz sentido verdadeiro e pode atrapalhar o modelo.

Você pode realizar a transformação da variável para dummys utilizando o método get_dummies da biblioteca pandas. A partir da variável com n categorias, você precisa criar n-1 variáveis dummy que assumem valor 0 ou valor 1, indicando se aquela observação pertence ou não a uma categoria.

Tome cuidado para não gerar através disso mais variáveis (número de colunas) do que a quantidade de observações (número de linhas) do seu conjunto de dados, uma vez que se isso ocorrer você perderá a capacidade de predição, porque não terá graus de liberdade para estimar parâmetros.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!