1
resposta

[Mão na massa]: explorando os dados

import pandas as pd
url_hospedagens = "https://raw.githubusercontent.com/alura-cursos/data-science-regressao-linear/main/dados/hospedagens.csv"
df = pd.read_csv(url_hospedagens)
df.head()

# Visualizar os primeiros dados, qual tamanho do dataset e quais seus tipos
print(df.shape)
df.info()

# Criar uma matriz de correlação dos dados entre si e de acordo com o valor das diárias da hospedagem
corr = df.corr()
corr['valor'].to_frame()

# Descrever as primeiras hipóteses do que pode ser observado;
# area -> variável com maior influência no preço
# dist_praia -> Quanto menor a distância da praia, maior o valor do imóvel
# dist_mercado -> Parece que não existe uma relação pois o valor é de -0.024377
# piscina -> Imóveis com piscina tendem a ser mais caros, mas a relação não é tão determinante quanto a área

# Representar graficamente uma regressão linear com uma variável independente de sua escolha com o reg_plot() e abstrair o que o gráfico apresenta.
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
slope, intercept, rvalue, pvalue, stderr = stats.linregress(df['area'], df['valor'])

sns.regplot(x='area', y='valor', data=df, line_kws={'color':'red'}, label=f"y={slope:.1f}x+{intercept:.1f}").legend(loc="best")
plt.show()

Neste modelo, o y representa o valor estimado do imóvel. O coeficiente de 14.8 indica que cada metro quadrado adicional eleva o preço em R$ 14,80.
Só o valor de -400.5 negativo não faz sentido, porque não existe imóvel com metragem de 0, então talvez seja algum ajuste futuro em outras aulas.

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Ei! Tudo bem, Luan?

Ótimo trabalho! A análise ficou bem estruturada e as hipóteses fazem sentido com o que os dados mostram. A leitura da correlação foi correta ao destacar a área como variável mais influente e interpretar bem variáveis como distância e piscina.

Sobre a sua interpretação do coeficiente angular, é isso mesmo. E boa observação em relação ao intercepto negativo, isso é comum em modelos lineares simples e realmente não representa um cenário real, mas sim um ajuste matemático do modelo. Como você comentou, fica mais claro quando avançamos para modelos com mais variáveis.

Continue se dedicando aos estudos e qualquer dúvida, compartilhe!

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!