1
resposta

Assim como Breno, também não entendi porque a variável vala representa as cidades não costeiras

Não entendi o fato da outra reta ser das não costeiras etambém não entendi o plot, que foi baseado em uma função de regressão linear simples com somente vala como variável independente. Já na hora de montar as retas, foi feito em cima da regressão linear múltipla

1 resposta

Olá Fernanda, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Respondi o Brenno e vou deixar aqui a resposta que dei a ele:

A fórmula para o modelo de regressão linear múltipla é a seguinte:

Onde y é a variável resposta que em nosso caso é a qualidade do ar (airq).

O βo é o intercepto, ou seja, o valor onde a reta passa pelo eixo y. Ele é o primeiro valor dado no summary e vale para toda reta que iremos construir.

Os outros βs são os coeficientes de cada uma das variáveis explicativas. No nosso caso, existem duas variáveis explicativas, vala que é o valor das empresas e coas que significa se a cidade é costeira ou não costeira. Os coeficientes dessas variáveis também são encontrados no summary.

Substituindo esses valores na fórmula de regressão linear múltipla, obtemos:

y = 117.1 + 0.001999 x1 - 29.68 x2

Onde x1 representa a variação em vala com valores contínuos de 0 a 20.000 e x2 representa a variável coas que pode assumir apenas os valores 0 e 1 (0 quando não é costeira e 1 quando é costeira).

Não conseguimos representar toda essa fórmula em um plano bidimensional apenas com uma reta, isso acontece porque os valores de x1 e x2 variam de forma diferente. Isso ficaria ainda mais complicado se todas as variáveis fossem contínuas (nesse caso escolheríamos um eixo de referência e alguns valores para outra variável e montaríamos retas diferentes para esses valores).

Como vala é a variável contínua, montamos um gráfico de dispersão a partir dele, variando o eixo x de 0 a 20.000. Não conseguiríamos representar uma reta colocando coas como eixo x, pois ela é uma variável qualitativa, e apresentaria apenas boxplot como uma visualização.

Portanto, como coas só apresenta 2 valores, podemos representar nosso modelo com duas fórmulas, uma quando x2 = 0 e outra quando x2 = 1.

  • y = 117.1 + 0.001999 x1 - 29.68 x 0
  • y = 117.1 + 0.001999 x1 - 29.68 x 1

Resultando em duas retas:

  • y = 117.1 + 0.001999 x1
  • y = 117.1 + 0.001999 x1 - 29.68

O modelo apresenta coasyes para entendermos quando a variável é acrescentada, ou seja, quando x2 = 1. Repare que isso faz com que somente o intercepto seja modificado, resultando em uma reta com a mesma inclinação mas deslocada para baixo.

Espero que tenha tirado sua dúvida.

Bons estudos!