Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Correlação interessante nos dados

Explorando o conjunto de dados, vi que existe uma correlação interessante que não foi mencionada na aula: o valor está relacionado com o inverso da distância da praia! Isso faz sentido, intuitivamente: quanto mais perto da praia um imóvel estiver, mais valorizado ele será.

Para ver isso, basta fazer um scatterplot das variáveis valor e distância da praia. O resultado fica bastante próximo de uma hipérbole (especificamente, a hipérbole xy=1), por isso que suspeitei dessa correlação.

Incluindo no dataframe uma coluna de 1/Valor, vemos que o coeficiente de correlação entre 1/V e Dist_Praia fica 0.645, o que mostra que a distância da praia pode ser útil na predição do preço.

E realmente 1/V é a melhor potência de V a se usar: 1/V^2 já dá um coeficiente de correlação menor, aproximadamente 0.5.

Aí fica a pergunta: será que isso é coincidência desse conjunto de dados? Talvez seja necessário coletar mais dados para saber. Mas em uma situação que estamos analisando isso no "mundo real", eu sugeriria incluir também 1/Dist_Praia como um fator importante quando formos treinar um modelo linear para prever o valor de um imóvel (além, claro, da área do imóvel, que ainda é o fator mais correlacionado com o valor).

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software