Não entendi muito bem essa técnica de transformação dos dados usando log Poderia explicar de uma forma mais detalhada o motivo de fazer esse processo?
Não entendi muito bem essa técnica de transformação dos dados usando log Poderia explicar de uma forma mais detalhada o motivo de fazer esse processo?
Boas Jefferson!
O que ocorre é o seguinte - o princpal indicativo de que podemos realizar uma regressão linear é quando os dados possuem uma relação linear entre si.
Entretanto, o que observamos, quando utilizamos as funções de correlação (pd.corr()
) e principalmente a função pd.pairplot()
é que não temos uma relação linear clara, veja a imagem abaixo:
Nesse gráfico, não conseguimos ver linhas bem definidas, então entende-se que uma regressão linear nesse caso não seria adequada.
Entretanto, podemos procurar esssa linearidade na regressão com algumas ténicas, como são o exemplo da normalização dos dados (quando transformamos os dados em valores entre -1 e 1), ou fazendo a transformação logarítmica.
No caso do curso, o professor optou pelo segundo método.
Vamos comparar agora o mesmo pairplot com as variáveis transformadas:
Nesse gráfico, conseguimos ver mais claramente que as relações entre as variáveis apresentam comportamento mais próximo de linear, o que é requisito para uma regressão linear mais assertiva.
De maneira geral, é por isso que é feita a transformação logarítmica, para tentar achar uma relação mais linear entre os dados. E como comentei antes, é uma das muitas transformações possíveis quando estamos lidando com regressões lineares.