Olá, pessoal!
Estou estudando a construção de modelos autorregressivos (AR) e tenho uma dúvida relacionada à escolha da ordem p do modelo com base na Função de Autocorrelação Parcial (PACF).
Pelo que entendi, a ordem p é determinada observando o gráfico da PACF e identificando o último lag significativo antes que as autocorrelações parciais caiam dentro da faixa de insignificância (área azul). No exemplo, o maior lag significativo foi o 14, então a ordem sugerida foi p = 14.
Até aí tudo bem. Mas minha dúvida é:
Qual critério devo usar para definir o número total de lags a serem exibidos no gráfico da PACF, especialmente considerando que a série é mensal e tem 492 observações?
Por exemplo, no código abaixo, definimos lags=20
:
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
fig = plt.figure(figsize=(16,8))
ax1 = fig.add_subplot(211)
fig = plot_acf(treino, lags=20, ax=ax1)
ax2 = fig.add_subplot(212)
fig = plot_pacf(treino, lags=20, ax=ax2)
- Existe alguma regra ou heurística para escolher esse valor (
lags=20
)? - Devo sempre usar um número fixo, como 20, ou devo ajustar com base no tamanho da série ou em outro critério?
- Para séries mensais, faz sentido usar múltiplos de 12 como 24, 36 ou 48 lags?
- E se eu aumentar ou diminuir esse número, posso perder ou mascarar a ordem correta do modelo?
Agradeço desde já por qualquer ajuda!
Abraços