1
resposta

Sobre os log's

Não entendi muito bem essa técnica de transformação dos dados usando log Poderia explicar de uma forma mais detalhada o motivo de fazer esse processo?

1 resposta

Boas Jefferson!

O que ocorre é o seguinte - o princpal indicativo de que podemos realizar uma regressão linear é quando os dados possuem uma relação linear entre si.

Entretanto, o que observamos, quando utilizamos as funções de correlação (pd.corr()) e principalmente a função pd.pairplot() é que não temos uma relação linear clara, veja a imagem abaixo:

Pairplot entre o valor do imóvel e as variáveis Area, Distância da Praia e Distância da Farmácia. Não pode-se perceber uma relação linear clara

Nesse gráfico, não conseguimos ver linhas bem definidas, então entende-se que uma regressão linear nesse caso não seria adequada.

Entretanto, podemos procurar esssa linearidade na regressão com algumas ténicas, como são o exemplo da normalização dos dados (quando transformamos os dados em valores entre -1 e 1), ou fazendo a transformação logarítmica.

No caso do curso, o professor optou pelo segundo método.

Vamos comparar agora o mesmo pairplot com as variáveis transformadas:

Pairplot entre o log do valor do imóvel e as variáveis log da Area, log da Distância da Praia e log da Distância da Farmácia. Pode-se perceber uma relação linear mais clara em relação a quando os dados não estão transformadosNesse gráfico, conseguimos ver mais claramente que as relações entre as variáveis apresentam comportamento mais próximo de linear, o que é requisito para uma regressão linear mais assertiva.

De maneira geral, é por isso que é feita a transformação logarítmica, para tentar achar uma relação mais linear entre os dados. E como comentei antes, é uma das muitas transformações possíveis quando estamos lidando com regressões lineares.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!