1
resposta

[Dúvida] Por que a distribuição da Variável Dependente de uma Regressão Linear Múltipla precisa ser uma distribuição Normal ?

Pelo que estudei há anos atrás, não lembrava da premissa que a Variável Dependente precisa seguir uma distribuição normal. Sei que a distribuição dos resíduos precisam seguir uma distribuição normal com média zero.

1 resposta

Olá Gabriel, tudo bem ?

Você está certo!

Explicação:

A regressão linear clássica (OLS — Ordinary Least Squares) não exige que a variável dependente siga uma distribuição normal. O que importa para que os testes inferenciais (como os valores-p, intervalos de confiança etc.) sejam válidos, são os resíduos.

Premissas principais da regressão linear (OLS)

  • Linearidade: A relação entre as variáveis é linear.

  • Independência dos erros: Os resíduos (erros) são independentes.

  • Homoscedasticidade: Os resíduos têm variância constante.

  • Normalidade dos resíduos: Os resíduos devem ser aproximadamente normais, com média zero, para que as inferências (testes estatísticos) sejam confiáveis.

Ou seja, os resíduos (e não a variável dependente em si) devem seguir uma distribuição normal.

Conclusão

Muitas vezes as pessoas olham um histograma da variável dependente (y) e pensam que ela precisa ser normal. Mas isso não é requisito para rodar uma regressão linear.

No entanto, se a distribuição de y for extremamente distorcida (skewed, com outliers, etc.), pode indicar que o modelo linear não é o mais adequado, ou que será difícil atender à normalidade dos resíduos.

Espero ter ajudado!