2
respostas

Script Completo

#=========== AULA 1

Pergunta: 0 que afeta a qualidade do ar? Como?

install.packages("Ecdat") # se necessário

library(Ecdat) # carregando data(Airq) # carregando o banco de dados do pacote names(Airq) # exibe os nomes das variáveis

Descrevendo as variáveis

---------------------------------------------------------

airq: índice da qualidade do ar (quanto menor, melhor)

vala: valor das empresas nas cidades (milhares de dólares)

rain: quantidade de chuva (em polegadas)

coas: a posição costeira da cidade (sim ou não)

dens: densidade populacional nas cidades (milha quadrada)

medi: renda média per capita (dólares)

Análise descritiva ou exploratória

---------------------------------------------------------

summary(Airq) # sumário das variáveis

as variáveis podem ser contínuas ou categóricas (dívidas em categorias)

a variável resposta é a qualidade do ar (airq)

plot(airq~vala,data=Airq)

#=========== AULA 2

Criando um modelo estatístico

y (resposta) ~ x (explicativa)

y (crescimento da planta) ~ x (quantidade de adubo) + x (quantidade de luz)

y ~ x1 + x2 + x3

airq ~ vala + coas + rain

Montando o modelo

m2<-lm(airq~coas,data=Airq)

alguns dados podem não ser lineares

summary(m1) # para saber a significância do modelo plot(airq~vala,data=Airq) # plot de regressão linear

p-valor indica a significância do modelo ou da variável

se p-valor for menor (<) 0.05 a variável é significativa

se p-valor for maior que 0.05 não existe o efeito esperado

A variável "vala" não influenciou a qualidade do ar nas cidades ("airq")

Montando os modelos (lineares simples):

---------------------------------------------------------

m1

A variável (valor das empresas) 'vala' influencia a (qualidade do ar) 'airq'?

m1<-lm(airq~vala, data=Airq) # lm = modelo linear. m1 summary(m1)

p-value indica a significância do modelo, ou variável.

Se p-value < 0.05, existe significância (= < 5%).

Se p-value > 0.05, não existe significância.

NÃO, a variável 'vala' não influencia 'airq' (p-value = 0.07).

plot(airq~vala, data=Airq)

m2, com variável categórica (posição costeira)

A variável (posição costeira) 'coas' influencia a (qualidade do ar) 'airq'?

m2<-lm(airq~coas, data=Airq) m2 summary(m2)

SIM, a variável 'coas' influencia a 'airq'? (p-value = 0.005)

Mas o quanto? Vamos representar graficamente.

plot(airq~coas, data=Airq)

Cidades costeiras, nesta amostra, apresentam melhor 'airq'. Vide reta abaixo.

curve(125.333+-29.476*x, add=TRUE) # Retas para os modelos não significativos são opcionais.

m3

A variável (renda média per capita) 'medi' influencia a (qualidade do ar) 'airq'?

m3<-lm(airq~medi, data=Airq) m3 summary(m3)

NÃO, a variável 'medi' não influencia 'airq' (p-value = 0.18).

plot(airq~medi, data=Airq)

curve(9.936e+01+5.638e-04*x, add=TRUE) # opcional

m4

A variável (quantidade de chuva) 'rain' influencia a (qualidade do ar) 'airq'?

m4<-lm(airq~rain, data=Airq) m4 summary(m4)

NÃO, a variável 'rain' não influencia 'airq' (p-value = 0.8).

plot(airq~rain, data=Airq)

curve(106.6662+-0.0545*x, add=TRUE)

m5

A variável (densidade populacional) 'dens' influencia a (qualidade do ar) 'airq'?

m5<-lm(airq~dens, data=Airq) m5 summary(m5)

NÃO, a variável 'dens' não influencia 'airq' (p-value = 0.8).

plot(airq~dens, data=Airq)

Não há relação significativa entre a densidade populacional e a qualidade do ar, nesta amostra.

curve(1.054e+02+-3.857e-04*x, add=TRUE)

a única variável que explica a qualidade do ar nas cidades é a posição

costeira

2 respostas

#=========== AULA 3

-----------------

termos: anova (variável contínua ~ de uma variável categórica);

regressão (variável contínua ~ variável contínua)

regressão múltipla (variável contínua ~ variáveis contínuas ou não)

----------------

colocando uma reta no gráfico de regressão

Retas de modelos não significativos são opcionais nos gráficos

y=a+b*x (equação da reta)

a<- intercepto

b<-

curve(96.451419+0.001969*x, add=TRUE)

Melhorando os gráficos

plot(airq~vala, data=Airq, xlab="Valor das empresas ($)", ylab="Qualidade do ar", col="blue", pch=1, cex=1.2)

curve(96.451419+0.001969*x, add=TRUE, col="darkblue", lwd=2, lty=2)

plot(airq~coas, data=Airq, xlab="Posição costeira", ylab="Qualídade do ar", col="lightblue", ylim=c(50,170), cex.lab=1.3, main="Aná1ise da qualidade do ar")

#=========== AULA 4

Regressão múltipla

---------------------------------------------------------

mRM1<-lm(airq~vala+coas, data=Airq) mRM1 summary(mRM1)

Existe um efeito significativo da posição costeira

e valor das empresas na qualidade do ar.

plot(airq~vala, data=Airq, xlab="Valor das empresas ($)", ylab="Qualidade do ar", col="blue", cex.lab=1.3)

não costeira

curve(1.171e+02+1.999e-03*x, add=TRUE, col="red", lwd=2, lty=2)

cidade costeira

curve(1.171e+02+1.999e-03*x+-2.968e+01, add=TRUE, col="red", lwd=2, lty=1)

legend("bottomright", c("Não-costeiras","Costeiras"), pch=1, lty=c(2,1), bty="n") # bty muda borda da caixa

RESULTADO = A qualidade do ar das cidades é afetada tanto pelo valor

das emresas quanto pela posição costeira das cidades.

Quando maior o valor das empresas, pior a qualidade do ar das cidades.

Além disso, as cidades não-costeiras apresentam qualidade do ar pior

do que as cidades costeiras.

#=========== AULA 4

mRM2<-lm(airq~vala+coas+dens, data=Airq) mRM2 summary(mRM2)

Contrastes de modelos

----------------------------------------------

comparar um modelo completo com um modelo sem a variável em questão

modelocompleto<-lm(airqvala+coas+dens, data=Airq) modeloincompleto<-lm(airqvala+coas, data=Airq)

os modelos são iguais?

se p>0.05, então não existe diferença entre os modelos,

então eu continuo com o modelo mais simples;

se p<0.05, então os modelos são diferentes e a variável não deve ser

retirada do modelo

anova(modelocompleto, modeloincompleto)

Gráfico final

-----------------------------------------

--------------------------------------

plot(airq~vala, data=Airq, xlab="Valor das empresas ($)", ylab="Qualidade do ar", col="blue", cex.lab=1.3, main="Qualidade do ar pelo valor das empresas e posição costeira") curve(1.171e+02+1.999e-03x, add=TRUE, col="red", lwd=2, lty=2) # não costeira curve(1.171e+02+1.999e-03x+-2.968e+01, add=TRUE, col="red", lwd=2, lty=1) # cidade costeira legend("bottomright", c("Não-costeiras","Costeiras"), pch=1, lty=c(2,1), bty="n", col=c("red","red"))

Conclusão

--------------------------------------

Neste estudo e com base nos dados 'Airq',

As variáveis que afetam 'airq' são:

'vala' (valor das empresas) e 'coas' (posição costeira)

Quanto maior 'vala', pior a qualidade do ar.

Quando 'coas' for TRUE, melhor a qualidade do ar.

Cidades costeiras com menores valores de empresas tem melhor 'airq'.

Olá Marcelo, tudo bem? Espero que sim!

Muito bom compartilhar aqui no fórum os códigos do curso Marcelo.

Será de grande ajuda para outros alunos que podem acompanhar aqui caso tenham alguma dúvida.

Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software