Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Transformações em variáveis independentes

Olá Rodrigo, tudo bem?

Gostaria de tirar uma dúvida quanto a aplicação de transformações em dados. Pela vídeo-aula entendi que em casos de assimetria na distribuição dos dados, aplicar o logaritmo do valor possa ser útil para garantir uma curva normal de distribuição. Contudo, na aula foi comentado sobre esta assimetria ocorrendo apenas na variável dependente (Preço).

Levando isso em consideração, a transformação dos parâmetros (variáveis independentes) também se faz necessária? Ou isso vai depender de caso a caso?

Caso um conjunto de dados possua uma variável dependente com uma distribuição assimétrica e uma variável independente com a distribuição normal, ainda se faz necessário transformar os dados desta variável independente?

2 respostas

Ei Bruno,

Também estou fazendo esse curso e acredito que não é possível aplicar o logaritmo somente para a variável dependente, porque matematicamente deixaria a equação desbalanceada. O que for feito em um lado da equação deve também ser feito no outro lado, seja soma, subtração, multiplicação, log e etc..

Considerando:

Y_i = Variável Dependente (Preço) B_i = Intercepto B_2 e B_3 = Coeficientes de Regressão X_2i = Variável Independente (Area) X_3i = Variável Independente (Dist_Praia) U_i = Termo de Erro

Y_i = B_1 + B_2X_2i + B_3X_3i + U_i

Se aplico o Log para o lado direito da equação, precisaria também aplicar o mesmo log para o lado esquerdo da equação, mantendo o equilíbrio.

Log(Y_i) = Log(B_1 + B_2X_2i + B_3X_3i + U_i)

Além disso, acredito que se suas variáveis independentes já possuem um comportamento simétrico, ao fazer a devida transformação logarítmica não causaria uma distorção na simetria das mesmas. Ou seja, elas manteriam o comportamento simétrico.

Bom dia Pedro, muito obrigado pela resposta. Achei interessante a sua observação, porém não sei se foi isso que o professor realizou na aula... Sim, matematicamente para deixar a equação igual, a sua lógica está correta:

Log(Y_i) = Log(B_1 + B_2X_2i + B_3X_3i + U_i)

Contudo, o modelo que o instrutor propôs na realidade seria este:

Log(Y_i) = B_1 + B_2.Log(X_2i) + B_3.Log(X_3i) + ... + U_i

Isso porque a transformação foi realizada nas variáveis individualmente e não na equação inteira. Isso faz com que as constantes sejam alteradas e por fim que o modelo seja modificado. Acredito que isso seja até um dos motivos pelo qual se aplicou a transformação, para mudar o modelo.

Agora com relação a distribuição das variáveis independentes, eu chequei o caso desse exercício e notei que realmente nesse caso aplicar o log na distribuição normal simétrica não descaracteriza ela como tal, apesar de gerar um a leve assimetria a direita. Testei isso plotando o log(log (área)), tendo em vista que o log(área) já era consideravelmente próximo de uma distribuição simétrica. Agradeço mais uma vez pela disponibilidade.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software