0
respostas

[Mão na massa]: explorando os dados

import pandas as pd
url_hospedagens = "https://raw.githubusercontent.com/alura-cursos/data-science-regressao-linear/main/dados/hospedagens.csv"
df = pd.read_csv(url_hospedagens)
df.head()

# Visualizar os primeiros dados, qual tamanho do dataset e quais seus tipos
print(df.shape)
df.info()

# Criar uma matriz de correlação dos dados entre si e de acordo com o valor das diárias da hospedagem
corr = df.corr()
corr['valor'].to_frame()

# Descrever as primeiras hipóteses do que pode ser observado;
# area -> variável com maior influência no preço
# dist_praia -> Quanto menor a distância da praia, maior o valor do imóvel
# dist_mercado -> Parece que não existe uma relação pois o valor é de -0.024377
# piscina -> Imóveis com piscina tendem a ser mais caros, mas a relação não é tão determinante quanto a área

# Representar graficamente uma regressão linear com uma variável independente de sua escolha com o reg_plot() e abstrair o que o gráfico apresenta.
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
slope, intercept, rvalue, pvalue, stderr = stats.linregress(df['area'], df['valor'])

sns.regplot(x='area', y='valor', data=df, line_kws={'color':'red'}, label=f"y={slope:.1f}x+{intercept:.1f}").legend(loc="best")
plt.show()

Neste modelo, o y representa o valor estimado do imóvel. O coeficiente de 14.8 indica que cada metro quadrado adicional eleva o preço em R$ 14,80.
Só o valor de -400.5 negativo não faz sentido, porque não existe imóvel com metragem de 0, então talvez seja algum ajuste futuro em outras aulas.

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Insira aqui a descrição dessa imagem para ajudar na acessibilidade