1
resposta

Mão na massa: análise e seleção de modelos de regressão linear

O modelo ideal para o Banco Bytebank ou para a rede hoteleira é aquele que apresenta o menor Erro Quadrático Médio (RMSE) e mantém todos os seus coeficientes com significância estatística ($P < 0.05$). Isso garante que o modelo seja robusto o suficiente para prever preços de novos quartos sem sofrer de overfitting, traduzindo características físicas em estimativas financeiras precisas. o dataset hoteis.csv para estruturar essa precificação. O objetivo aqui é transformar características físicas em valor monetário com rigor estatístico.

Aqui está a resolução técnica dividida pelas etapas do pipeline de dados:

  1. Análise Inicial: PairPlot da Seaborn
    O pairplot é a nossa visão panorâmica. Ele executa uma matriz de gráficos de dispersão, comparando cada variável numérica com todas as outras.

O que observar: No cruzamento com a variável preco_diaria, buscamos inclinações lineares. Se os pontos de area_m2 sobem de forma consistente com o preço, temos um forte candidato a preditor principal.

Identificação de Colinearidade: Se num_camas e num_banheiros tiverem uma correlação muito alta entre si (formando quase uma linha reta), o modelo pode sofrer de multicolinearidade, o que infla a variância dos coeficientes.

  1. Construção dos Modelos de Regressão Linear
    Para uma comparação justa, devemos isolar o impacto das variáveis:

Modelo 1 (Base): Uma regressão simples usando apenas a variável com maior correlação (ex: area_m2). Serve como nosso benchmark.

Modelo 2 (Múltiplo): Inclui todas as características (camas, banheiros, andar). A equação se torna:

  1. Comparação e Seleção
    A seleção do modelo de precificação não deve se basear apenas no R

bruto. Ao analisarmos os modelos, observamos que o Modelo Múltiplo tende a apresentar um R

superior, pois captura a complexidade do valor de uma estadia (onde conforto e espaço interagem).

Entretanto, para a decisão final, priorizamos o R

Ajustado. Se ao adicionar a variável num_camas o R

subir, mas o Ajustado cair, significa que a variável está inserindo ruído e não poder explicativo real. Além disso, aplicamos o teste de P-value: variáveis com P>0.05 são descartadas, pois sua contribuição pode ser fruto do acaso. O modelo vencedor é aquele que oferece o menor Erro Quadrático Médio (RMSE), garantindo que a diferença entre o preço real da diária e a previsão do modelo seja a mínima possível.

1 resposta

Oi, Moacir! Como vai?

Agradeço por compartilhar seus aprendizados com a comunidade Alura.

Gostei de como você organizou o raciocínio e conectou bem os critérios de avaliação do modelo, como RMSE e P-value, com a tomada de decisão.

Siga explorando esse tipo de análise, você está no caminho certo.✨

Conte com o apoio do Fórum na sua jornada. Abraços e bons estudos!

Para se aprofundar no tema:
Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!