Olá, Bruno! Tudo bem?
Sua dúvida é muito comum e toca em um dos pontos mais fascinantes (e às vezes confusos) da estatística: a diferença entre a correlação simples e o comportamento de uma variável dentro de um modelo múltiplo.
Não necessariamente há algo errado com seus dados; o que você está observando pode ser um fenômeno estatístico. Vamos analisar os pontos principais:
1. O salto no $R^2$ (Sinergia de Variáveis)
O fato de o Modelo 2 atingir 92% de $R^2$ indica que a combinação das variáveis explica muito melhor a variação dos preços do que elas isoladas.
- No Modelo 3 (isolado), a "ProximidadeTurismo" explica 48% da variação.
- Ao juntar com "Estrelas" e "Capacidade", o modelo consegue isolar o efeito de cada uma. Isso sugere que essas variáveis são complementares. O modelo agora entende que o preço não depende apenas de onde o hotel está, mas da categoria dele naquela localização específica.
2. O Coeficiente Negativo e a "Lógica Humana"
O coeficiente de -20,36 indica que, para cada unidade que a "ProximidadeTurismo" aumenta, o preço cai 20,36 unidades, mantendo as outras variáveis constantes.
Aqui pode estar o segredo da sua dúvida: como a variável "ProximidadeTurismo" foi medida?
- Se for Distância (em km ou metros): Se o número aumentar (ex: de 1km para 10km), o hotel está ficando mais longe do turismo. Nesse caso, um coeficiente negativo faz todo o sentido: quanto maior a distância (mais longe), menor o preço.
- Se for uma Nota de Proximidade (0 a 10): Se quanto maior a nota, mais perto ele está, e o coeficiente deu negativo, aí temos algo chamado Sinal Invertido.
3. Por que o sinal inverte? (Multicolinearidade)
Se a lógica do dado diz que ele deveria ser positivo, mas o summary diz que é negativo, você pode estar enfrentando a Multicolinearidade.
- Isso acontece quando duas variáveis explicativas são muito parecidas (ex: hotéis com mais estrelas costumam ficar sempre mais perto do turismo).
- O modelo "se confunde" ao tentar atribuir o crédito do preço alto a uma ou outra, e acaba distorcendo os coeficientes para compensar o erro.
O que você pode fazer para validar?
- Verifique a correlação: Rode uma matriz de correlação (
df.corr()) entre as variáveis independentes. Se a correlação entre "Estrelas" e "Proximidade" for muito alta (ex: > 0.8), o sinal do coeficiente pode ficar instável. - Verifique a unidade de medida: Confirme se a variável não é "Distância". Se for distância, o sinal negativo é exatamente o que se espera: o preço cai conforme a distância aumenta.
- Analise os Resíduos: Use os gráficos de resíduos para ver se o Modelo 2 (92%) não está sofrendo de overfitting (decorando os dados em vez de aprender).
O salto de 48% para 92% é muito expressivo e mostra que seu Modelo 2 é muito poderoso, mas vale essa conferida na "natureza" da variável para garantir que a interpretação no relatório esteja correta!
O que você descobriu ao olhar a definição dessa variável de proximidade? Ela é uma nota ou uma distância?