Pelo que estudei há anos atrás, não lembrava da premissa que a Variável Dependente precisa seguir uma distribuição normal. Sei que a distribuição dos resíduos precisam seguir uma distribuição normal com média zero.
Pelo que estudei há anos atrás, não lembrava da premissa que a Variável Dependente precisa seguir uma distribuição normal. Sei que a distribuição dos resíduos precisam seguir uma distribuição normal com média zero.
Olá Gabriel, tudo bem ?
Você está certo!
A regressão linear clássica (OLS — Ordinary Least Squares) não exige que a variável dependente siga uma distribuição normal. O que importa para que os testes inferenciais (como os valores-p, intervalos de confiança etc.) sejam válidos, são os resíduos.
Linearidade: A relação entre as variáveis é linear.
Independência dos erros: Os resíduos (erros) são independentes.
Homoscedasticidade: Os resíduos têm variância constante.
Normalidade dos resíduos: Os resíduos devem ser aproximadamente normais, com média zero, para que as inferências (testes estatísticos) sejam confiáveis.
Ou seja, os resíduos (e não a variável dependente em si) devem seguir uma distribuição normal.
Muitas vezes as pessoas olham um histograma da variável dependente (y) e pensam que ela precisa ser normal. Mas isso não é requisito para rodar uma regressão linear.
No entanto, se a distribuição de y for extremamente distorcida (skewed, com outliers, etc.), pode indicar que o modelo linear não é o mais adequado, ou que será difícil atender à normalidade dos resíduos.
Espero ter ajudado!