3
respostas

Meu primeiro modelo de regressão linear

Pessoal, bom dia! Tenho acompanhado as aulas e está muito legal e agora estou criando o meu primeiro modelo de regressão linear, que consiste em prever o volume de vendas e, para isso, eu construí uma base com as vendas por dia de 2023, contendo os seguintes campos:

LOCAL LOJA ("Rua","Supermercado", "Shopping", etc...)

CODIGO IBGE DA LOJA

RENDIMENTO MEDIO DOMICILIAR (R$) DA REGIÃO

DOMICÍLIOS OCUPADOS (quantidade de domicílios ocupados naquela região, de acordo com o CÓDIGO IBGE)

MÉDIA DE PESSOAS EM CADA DOMICÍLIO (de acordo com o CÓDIGO IBGE)

A minha variável DEPENDENTE é o FATURAMENTO DE VENDAS (R$).

Eu vi que, nas aulas, o professor sempre usa variáveis de valor, mas como eu preciso prever isso por estabelecimento (loja), o que vocês me aconselham? Como eu posso usar esse código IBGE e/ou código da loja em meu modelo?

Eu tenho alguns outros campos na base que já possuem o valor "0" e "1" (por exemplo, se aquele dia foi ou não feriado), mas não sei bem como lidar com esse CÓDIGO IBGE e/ou loja.

Alguém tem alguma sugestão?

Tks.

3 respostas

Oi Emerson, tudo bem?

Em relação sobre como utilizar o CÓDIGO IBGE e/ou o código da loja em seu modelo, a resposta dependerá um pouco do tipo de informação que esses códigos representam e como eles se relacionam com o seu objetivo de previsão de vendas.

Se esses códigos são categóricos e representam diferentes lojas ou diferentes localidades, uma opção seria transformá-los em variáveis dummy. As variáveis dummy são variáveis binárias criadas para representar uma variável com duas ou mais categorias. Para saber um pouco mais, sugiro a leitura do artigo get_dummies vs OneHotEncoder: qual método escolher?

Em relação ao CÓDIGO IBGE, se ele for um código numérico que representa algum tipo de informação ordinal (ou seja, existe uma ordem ou hierarquia nos códigos), você poderia incluí-lo diretamente em seu modelo como uma variável numérica.

Espero ter ajudado e boa sorte no seu projeto!

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Oi Monalisa, boa noite! Tudo bem?

Eu agradeço muito pela sua dica, pois é o primeiro modelo de regressão linear que estou fazendo e por isso estou cheio de dúvidas!

Eu até pensei em criar essas variáveis "dummy", porém, cada código desses representa um município e aí ficaria inviável considerar isso como variáveis sabe....

Um outro ponto que fiquei com dúvidas é sobre a matriz de correlação pois, pelo que gerei e depois fui olhar, não tenho nenhuma correlação entre variáveis, mas naquele "summary" do StatsModel eu tenho a mensagem de que posso ter uma "multicolinearidade" entre as minhas variáveis de entrada e também não sei como resolver isso.

Por fim, a última dúvida é com relação à "distribuição normal" de minha variável dependente: eu até consegui deixá-la um pouco mais "uniforme" (com aquele formato de "sino" que a gente sempre tenta deixa usando a escala logarítma) mas, mesmo assim, o meu gráfico sempre fica "mais a direita"no eixo "x" e não sei também se isso é um problema ou não.

De qualquer forma, eu estou me dedicando aqui para conseguir fazer e estou até revendo as aulas do professor Rodrigo para seguir os mesmos passos que ele nos ensinou mas, apesar de ele explicar muito bem e as aulas serem muito legais, quando vamos para o mundo real, nos perdemos um pouco.

Oi Emerson, tudo bem?

A multicolinearidade ocorre quando as variáveis independentes estão correlacionadas entre si, o que pode afetar a interpretação dos coeficientes do modelo. Para resolver isso, você pode tentar remover variáveis que são altamente correlacionadas ou usar técnicas como análise de componentes principais (PCA) para reduzir a dimensionalidade dos dados. Para saber um pouco mais sobre PCA, indico o curso Análise de componentes principais: elaboração de rankings com o PCA

Quanto à distribuição normal. Se a distribuição da variável dependente não for normal, isso pode indicar que a regressão linear pode não ser o modelo mais apropriado para seus dados. Mas destaco que, mesmo que a distribuição não seja perfeitamente normal, a regressão linear ainda pode fornecer estimativas úteis.

Espero ter ajudado.

Qualquer dúvida, compartilhe no fórum.

Abraços.