Olá João, tudo bem?
Vou responder por etapas também?
Em relação a essa pergunta:
"O histograma plotado demonstrou que os dados que tínhamos eram referentes a casa de valores mais baratos, tendo uma escassez de dados sobre imóveis com o preço mais alto. Por esse motivo, fizemos a transformação das variáveis para que nosso modelo conseguisse ter uma base melhor para prever valores de imóveis mais caros, correto? "
e essa:
"Outra dúvida também, é de que forma esta transformação feita "normalizou" os nossos dados? Por que antes é como se tivéssemos mais dados de imóveis mais barato e depois dessa transformação "surgiu" novos dados manipulados de preço médio? Como funciona isso?"
Na verdade, aplicamos uma transformação para logarítmica no preço dos imóveis, nossa variável resposta, para ter uma distribuição simétrica. Isso não "cria" novos dados, mas redistribui os dados existentes. É como se você estivesse esticasse e espremesse uma distribuição de dados até que ela se pareça mais simétrica, parecendo uma distribuição normal. Isso pode ajudar a melhorar a precisão do seu modelo de regressão, pois os modelos de regressão assumem que os erros (as diferenças entre os valores previstos e reais) são normalmente distribuídos. Se a variável dependente (neste caso, o preço dos imóveis) não é normalmente distribuída, isso pode violar essa suposição.
Sobre a questão da multicolinearidade, não podemos dizer que a transformação logarítmica sozinha alterou a multicolinearidade, uma vez que esta é uma condição estatística em que algumas das variáveis independentes (os x's: características dos imóveis) em um modelo de regressão múltipla estão altamente correlacionadas entre si o que dificulta analisar o efeito individual.
João, espero ter esclarecido melhor suas dúvidas, além disso, eu verifiquei aqui e também gostaria de dizer que esse curso receberá uma atualização em breve com conteúdo melhor elaborado.
Te desejo bons estudos!