Variavéis Categoricas | Regressão Linear: técnicas avançadas de modelagem

Olá Victhor, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Precisamos tomar cuidado ao utilizar variáveis categóricas em modelos de regressão linear para não acabarmos gerando interpretações erradas. A regressão linear precisa necessariamente de variáveis numéricas para funcionar. Em conjunto com as variáveis numéricas, podemos utilizar categorias somente na regressão linear múltipla através do método de transformação da variável categórica em variáveis dummy.

Caso você transforme apenas as categorias em valores numéricos, estará atribuindo valores arbitrários às categorias, e o modelo pode entender que há certa ordem entre as categorias e uma categoria ser o dobro da outra por exemplo, o que não faz sentido verdadeiro e pode atrapalhar o modelo.

Você pode realizar a transformação da variável para dummys utilizando o método get_dummies da biblioteca pandas. A partir da variável com n categorias, você precisa criar n-1 variáveis dummy que assumem valor 0 ou valor 1, indicando se aquela observação pertence ou não a uma categoria.

Tome cuidado para não gerar através disso mais variáveis (número de colunas) do que a quantidade de observações (número de linhas) do seu conjunto de dados, uma vez que se isso ocorrer você perderá a capacidade de predição, porque não terá graus de liberdade para estimar parâmetros.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!