Mão na massa: análise e seleção de modelos de regressão linear

O modelo ideal para o Banco Bytebank ou para a rede hoteleira é aquele que apresenta o menor Erro Quadrático Médio (RMSE) e mantém todos os seus coeficientes com significância estatística ($P < 0.05$). Isso garante que o modelo seja robusto o suficiente para prever preços de novos quartos sem sofrer de overfitting, traduzindo características físicas em estimativas financeiras precisas. o dataset hoteis.csv para estruturar essa precificação. O objetivo aqui é transformar características físicas em valor monetário com rigor estatístico.

Aqui está a resolução técnica dividida pelas etapas do pipeline de dados:

Análise Inicial: PairPlot da Seaborn
O pairplot é a nossa visão panorâmica. Ele executa uma matriz de gráficos de dispersão, comparando cada variável numérica com todas as outras.

O que observar: No cruzamento com a variável preco_diaria, buscamos inclinações lineares. Se os pontos de area_m2 sobem de forma consistente com o preço, temos um forte candidato a preditor principal.

Identificação de Colinearidade: Se num_camas e num_banheiros tiverem uma correlação muito alta entre si (formando quase uma linha reta), o modelo pode sofrer de multicolinearidade, o que infla a variância dos coeficientes.

Construção dos Modelos de Regressão Linear
Para uma comparação justa, devemos isolar o impacto das variáveis:

Modelo 1 (Base): Uma regressão simples usando apenas a variável com maior correlação (ex: area_m2). Serve como nosso benchmark.

Modelo 2 (Múltiplo): Inclui todas as características (camas, banheiros, andar). A equação se torna:

Comparação e Seleção
A seleção do modelo de precificação não deve se basear apenas no R

bruto. Ao analisarmos os modelos, observamos que o Modelo Múltiplo tende a apresentar um R

superior, pois captura a complexidade do valor de uma estadia (onde conforto e espaço interagem).

Entretanto, para a decisão final, priorizamos o R

Ajustado. Se ao adicionar a variável num_camas o R

subir, mas o Ajustado cair, significa que a variável está inserindo ruído e não poder explicativo real. Além disso, aplicamos o teste de P-value: variáveis com P>0.05 são descartadas, pois sua contribuição pode ser fruto do acaso. O modelo vencedor é aquele que oferece o menor Erro Quadrático Médio (RMSE), garantindo que a diferença entre o preço real da diária e a previsão do modelo seja a mínima possível.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP