Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Critério para definir o número de lags ao analisar a PACF para modelos AR

Olá, pessoal!

Estou estudando a construção de modelos autorregressivos (AR) e tenho uma dúvida relacionada à escolha da ordem p do modelo com base na Função de Autocorrelação Parcial (PACF).

Pelo que entendi, a ordem p é determinada observando o gráfico da PACF e identificando o último lag significativo antes que as autocorrelações parciais caiam dentro da faixa de insignificância (área azul). No exemplo, o maior lag significativo foi o 14, então a ordem sugerida foi p = 14.

Até aí tudo bem. Mas minha dúvida é:

Qual critério devo usar para definir o número total de lags a serem exibidos no gráfico da PACF, especialmente considerando que a série é mensal e tem 492 observações?

Por exemplo, no código abaixo, definimos lags=20:

from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

fig = plt.figure(figsize=(16,8))

ax1 = fig.add_subplot(211)
fig = plot_acf(treino, lags=20, ax=ax1)

ax2 = fig.add_subplot(212)
fig = plot_pacf(treino, lags=20, ax=ax2)
  • Existe alguma regra ou heurística para escolher esse valor (lags=20)?
  • Devo sempre usar um número fixo, como 20, ou devo ajustar com base no tamanho da série ou em outro critério?
  • Para séries mensais, faz sentido usar múltiplos de 12 como 24, 36 ou 48 lags?
  • E se eu aumentar ou diminuir esse número, posso perder ou mascarar a ordem correta do modelo?

Agradeço desde já por qualquer ajuda!

Abraços

2 respostas
solução!

Olá, Carlos!

Sua pergunta é extremamente pertinente e mostra que você está indo além do que foi mostrado em aula. A escolha do número de lags para visualização na PACF é uma decisão crucial que impacta diretamente na sua análise.

Você está certo em sua abordagem de que a ordem p é o último lag significativo antes de cair na área de insignificância. O problema reside em saber até onde você deve "olhar".

Não há uma regra fixa e universal, mas existem algumas heurísticas e boas práticas para te ajudar a definir o número de lags (lags).

Regra geral: Uma heurística comum é usar sqrt(N), onde N é o número de observações da sua série temporal. No seu caso, com 492 observações, a raiz quadrada é aproximadamente 22. Isso sugere que um número de lags em torno de 20 a 25 é um bom ponto de partida, o que valida a escolha do curso.

Sazonalidade: Para séries mensais (ou com qualquer periodicidade), é fundamental incluir um número de lags que permita visualizar a sazonalidade. Usar múltiplos de 12 (como 24, 36 ou 48) faz todo o sentido, pois você poderá ver a correlação com o mesmo mês de anos anteriores. É possível que um modelo AR sazonal seja mais adequado do que um modelo AR simples.

Compromisso entre detalhe e ruído: Se você usar um número de lags muito pequeno, pode perder lags significativos. Se usar um número muito grande, pode introduzir ruído visual e dificultar a identificação do padrão. O número de 20 a 40 lags geralmente é um bom compromisso para a maioria das séries.

Respondendo às suas perguntas:

Existe alguma regra ou heurística para escolher esse valor?

Sim, como mencionei acima, a heurística de sqrt(N) é um bom ponto de partida. Além disso, a sua percepção de usar múltiplos da sazonalidade (12 para dados mensais) é um critério muito válido.

Devo sempre usar um número fixo, como 20, ou devo ajustar com base no tamanho da série ou em outro critério?

Você deve ajustar com base no tamanho da série e na sua sazonalidade. Um número fixo pode ser inadequado para séries curtas ou longas.

Para séries mensais, faz sentido usar múltiplos de 12 como 24, 36 ou 48 lags?

Sim, faz total sentido. É a forma mais direta de identificar padrões sazonais na série.

E se eu aumentar ou diminuir esse número, posso perder ou mascarar a ordem correta do modelo?

Sim. Diminuir pode fazer com que você perca um lag significativo, levando a um modelo subajustado. Aumentar pode adicionar ruído visual, mas a ordem correta ainda estará presente; você só terá que ignorar os lags insignificantes que vêm depois.

Em resumo, o ideal é usar uma combinação de critérios: comece com sqrt(N) para ter uma visão geral, e depois adicione mais lags para explorar a sazonalidade. Continue com esse pensamento crítico, ele é o que nos torna melhores cientistas de dados!

Olá, João Paulo.

Quero agradecer pela sua resposta detalhada e esclarecedora sobre a escolha do número de lags na análise da PACF.

Incluí este conteúdo no meu notebook do curso para futuras consultas.

Abraços!