1
resposta

Não entendi por que a variável

Quando fazemos o summary do modelo de regressão múltipla, temos:

[...]
Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.171e+02  8.717e+00  13.434  1.8e-13 ***
vala         1.999e-03  9.397e-04   2.128  0.04264 *  
coasyes     -2.968e+01  9.336e+00  -3.179  0.00369 ** 
[...]

Em que, segundo o instrutor, se torna as cidades não costeiras, por conta do coeficiente "coasyes" somente apontar para as cidades costeiras... Mas não entendi como "vala" automaticamente se transforma em não costeiras, sendo que "vala" se relaciona com empresas de cidades costeiras e não costeiras...

1 resposta

Olá Brenno, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

A fórmula para o modelo de regressão linear múltipla é a seguinte:

Onde y é a variável resposta que em nosso caso é a qualidade do ar (airq).

O βo é o intercepto, ou seja, o valor onde a reta passa pelo eixo y. Ele é o primeiro valor dado no summary e vale para toda reta que iremos construir.

Os outros βs são os coeficientes de cada uma das variáveis explicativas. No nosso caso, existem duas variáveis explicativas, vala que é o valor das empresas e coas que significa se a cidade é costeira ou não costeira. Os coeficientes dessas variáveis também são encontrados no summary.

Substituindo esses valores na fórmula de regressão linear múltipla, obtemos:

y = 117.1 + 0.001999 x1 - 29.68 x2

Onde x1 representa a variação em vala com valores contínuos de 0 a 20.000 e x2 representa a variável coas que pode assumir apenas os valores 0 e 1 (0 quando não é costeira e 1 quando é costeira).

Não conseguimos representar toda essa fórmula em um plano bidimensional apenas com uma reta, isso acontece porque os valores de x1 e x2 variam de forma diferente. Isso ficaria ainda mais complicado se todas as variáveis fossem contínuas (nesse caso escolheríamos um eixo de referência e alguns valores para outra variável e montaríamos retas diferentes para esses valores).

Como vala é a variável contínua, montamos um gráfico de dispersão a partir dele, variando o eixo x de 0 a 20.000. Não conseguiríamos representar uma reta colocando coas como eixo x, pois ela é uma variável qualitativa, e apresentaria apenas boxplot como uma visualização.

Portanto, como coas só apresenta 2 valores, podemos representar nosso modelo com duas fórmulas, uma quando x2 = 0 e outra quando x2 = 1.

  • y = 117.1 + 0.001999 x1 - 29.68 x 0
  • y = 117.1 + 0.001999 x1 - 29.68 x 1

Resultando em duas retas:

  • y = 117.1 + 0.001999 x1
  • y = 117.1 + 0.001999 x1 - 29.68

O modelo apresenta coasyes para entendermos quando a variável é acrescentada, ou seja, quando x2 = 1. Repare que isso faz com que somente o intercepto seja modificado, resultando em uma reta com a mesma inclinação mas deslocada para baixo.

Espero que tenha tirado sua dúvida.

Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software