Pelo que estudei há anos atrás, não lembrava da premissa que a Variável Dependente precisa seguir uma distribuição normal. Sei que a distribuição dos resíduos precisam seguir uma distribuição normal com média zero.
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Pelo que estudei há anos atrás, não lembrava da premissa que a Variável Dependente precisa seguir uma distribuição normal. Sei que a distribuição dos resíduos precisam seguir uma distribuição normal com média zero.
Olá Gabriel, tudo bem ?
Você está certo!
A regressão linear clássica (OLS — Ordinary Least Squares) não exige que a variável dependente siga uma distribuição normal. O que importa para que os testes inferenciais (como os valores-p, intervalos de confiança etc.) sejam válidos, são os resíduos.
Linearidade: A relação entre as variáveis é linear.
Independência dos erros: Os resíduos (erros) são independentes.
Homoscedasticidade: Os resíduos têm variância constante.
Normalidade dos resíduos: Os resíduos devem ser aproximadamente normais, com média zero, para que as inferências (testes estatísticos) sejam confiáveis.
Ou seja, os resíduos (e não a variável dependente em si) devem seguir uma distribuição normal.
Muitas vezes as pessoas olham um histograma da variável dependente (y) e pensam que ela precisa ser normal. Mas isso não é requisito para rodar uma regressão linear.
No entanto, se a distribuição de y for extremamente distorcida (skewed, com outliers, etc.), pode indicar que o modelo linear não é o mais adequado, ou que será difícil atender à normalidade dos resíduos.
Espero ter ajudado!