O modelo ideal para o Banco Bytebank ou para a rede hoteleira é aquele que apresenta o menor Erro Quadrático Médio (RMSE) e mantém todos os seus coeficientes com significância estatística ($P < 0.05$). Isso garante que o modelo seja robusto o suficiente para prever preços de novos quartos sem sofrer de overfitting, traduzindo características físicas em estimativas financeiras precisas. o dataset hoteis.csv para estruturar essa precificação. O objetivo aqui é transformar características físicas em valor monetário com rigor estatístico.
Aqui está a resolução técnica dividida pelas etapas do pipeline de dados:
- Análise Inicial: PairPlot da Seaborn
O pairplot é a nossa visão panorâmica. Ele executa uma matriz de gráficos de dispersão, comparando cada variável numérica com todas as outras.
O que observar: No cruzamento com a variável preco_diaria, buscamos inclinações lineares. Se os pontos de area_m2 sobem de forma consistente com o preço, temos um forte candidato a preditor principal.
Identificação de Colinearidade: Se num_camas e num_banheiros tiverem uma correlação muito alta entre si (formando quase uma linha reta), o modelo pode sofrer de multicolinearidade, o que infla a variância dos coeficientes.
- Construção dos Modelos de Regressão Linear
Para uma comparação justa, devemos isolar o impacto das variáveis:
Modelo 1 (Base): Uma regressão simples usando apenas a variável com maior correlação (ex: area_m2). Serve como nosso benchmark.
Modelo 2 (Múltiplo): Inclui todas as características (camas, banheiros, andar). A equação se torna:
- Comparação e Seleção
A seleção do modelo de precificação não deve se basear apenas no R
bruto. Ao analisarmos os modelos, observamos que o Modelo Múltiplo tende a apresentar um R
superior, pois captura a complexidade do valor de uma estadia (onde conforto e espaço interagem).
Entretanto, para a decisão final, priorizamos o R
Ajustado. Se ao adicionar a variável num_camas o R
subir, mas o Ajustado cair, significa que a variável está inserindo ruído e não poder explicativo real. Além disso, aplicamos o teste de P-value: variáveis com P>0.05 são descartadas, pois sua contribuição pode ser fruto do acaso. O modelo vencedor é aquele que oferece o menor Erro Quadrático Médio (RMSE), garantindo que a diferença entre o preço real da diária e a previsão do modelo seja a mínima possível.