Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Solucionado (ver solução)

Distribuição normal

Ola Rodrigo, tudo bem?

Estou com uma duvida em relação a distribuição da variavel dependente (Y) do nosso modelo de regressão linear. Em diversas fontes diferentes encontrei que os requisitos para obter um intervalo de confiança valido para os paramêtros do modelo de regressao linear se referem à normalidade dos residuos, e não à normalidade das variaveis em si.

Na sua explicação, inclusive, você comenta que "testes paramétricos assumem que os dados amostrais foram coletados de uma população com distribuição de probabilidade conhecida". Posso estar enganado mas isso so é verdade quando tratamos de amostrar pequenas, ja que o teorema do limite central nos garante que independentemente da distribuição de uma variavel independente X, a distribuição da média de X vai seguir uma distribuição normal. Dessa forma podemos realizar testes estatisticos (intervalos de confiança e testes de hipoteses) mesmo desconhecendo a distribuição da população.

Obrigado

5 respostas

Alguém?

Oi Ricardo,

Sim, a hipótese de normalidade dos resíduos pode ser relaxada quando trabalhamos com grandes volumes de dados, mas se sua amostra é pequena ou finita precisamos tomar um certo cuidado.

Observe a seguinte extensão do teorema do limite central.

Se os termos de erro forem independentes e distribuídos identicamente com média zero e variância constante e se as variáveis explicativas forem constantes em amostras repetidas, os coeficientes dos estimadores de mínimos quadrados serão assintoticamente normalmente distribuídos com médias iguais aos betas correspondentes.(1)

Isso nos assegura que os procedimentos de teste (testes t e F) serão válidos assintoticamente, isto é, em grandes amostras.

Em amostras pequenas ou finitas, a hipótese de normalidade torna-se importante quando falamos de testes de hipóteses e previsões. Portanto, nestes casos devemos testar explicitamente a hipótese da normalidade dos resíduos. Isso porque em amostras pequenas e sem a garantia de normalidade, as estatísticas t e F calculadas podem não seguir as distribuições t e F.

Espero ter ajudado

(1) THEIL, Henri. Introduction to econometrics. Englewood Cliffs, NJ: Prentice-Hall, 1978. p. 240

Ola Rodrigo, obrigado pela resposta.

Tenho ainda uma duvida, pois na sua aula você deixa a entender como se fosse um problema a variável dependente y ter uma distribuição assimétrica à direita.

Afinal de contas a variável dependente precisa também ter distribuição normal? O texto que você publicou se refere a normalidade dos erros e ainda cita as variáveis explicativas, mas nada fala sobre a variável dependente. Além disso o que seria uma variável explicativa constante em amostras repetidas?

solução

Ricardo,

Uma das hipóteses de um modelo de regressão é que ele deve ser linear nos parâmetros, ou seja, uma forma funcional linear. Variáveis com este tipo de assimetria geram modelos não lineares nos parâmetros, mas em alguns casos podem ser transformados e estimados como modelo lineares (como vimos no curso).

Respondendo sua pergunta, nem a variável dependente e nem as explicativas precisam ser normalmente distribuídas. Essa suposição se aplica aos erros.

A referência que fiz sobre normalidade e testes paramétricos ficou meio fora de contexto e peço desculpas pela confusão.

Com relação ao segundo ponto, temos aqui na Alura um curso de estatística que fala sobre testes de hipótese que tem uma demonstração prática do teorema do limite central. A alteração aí é que agora estamos falando dos resíduos de uma regressão e a variáveis que precisam ser constantes em amostras repetidas são as explicativas que geram este resíduo.

Espero que ajude

Perfeito, obrigado!