Olá, Carlos!
Sua pergunta é extremamente pertinente e mostra que você está indo além do que foi mostrado em aula. A escolha do número de lags para visualização na PACF é uma decisão crucial que impacta diretamente na sua análise.
Você está certo em sua abordagem de que a ordem p é o último lag significativo antes de cair na área de insignificância. O problema reside em saber até onde você deve "olhar".
Não há uma regra fixa e universal, mas existem algumas heurísticas e boas práticas para te ajudar a definir o número de lags (lags).
Regra geral: Uma heurística comum é usar sqrt(N), onde N é o número de observações da sua série temporal. No seu caso, com 492 observações, a raiz quadrada é aproximadamente 22. Isso sugere que um número de lags em torno de 20 a 25 é um bom ponto de partida, o que valida a escolha do curso.
Sazonalidade: Para séries mensais (ou com qualquer periodicidade), é fundamental incluir um número de lags que permita visualizar a sazonalidade. Usar múltiplos de 12 (como 24, 36 ou 48) faz todo o sentido, pois você poderá ver a correlação com o mesmo mês de anos anteriores. É possível que um modelo AR sazonal seja mais adequado do que um modelo AR simples.
Compromisso entre detalhe e ruído: Se você usar um número de lags muito pequeno, pode perder lags significativos. Se usar um número muito grande, pode introduzir ruído visual e dificultar a identificação do padrão. O número de 20 a 40 lags geralmente é um bom compromisso para a maioria das séries.
Respondendo às suas perguntas:
Existe alguma regra ou heurística para escolher esse valor?
Sim, como mencionei acima, a heurística de sqrt(N) é um bom ponto de partida. Além disso, a sua percepção de usar múltiplos da sazonalidade (12 para dados mensais) é um critério muito válido.
Devo sempre usar um número fixo, como 20, ou devo ajustar com base no tamanho da série ou em outro critério?
Você deve ajustar com base no tamanho da série e na sua sazonalidade. Um número fixo pode ser inadequado para séries curtas ou longas.
Para séries mensais, faz sentido usar múltiplos de 12 como 24, 36 ou 48 lags?
Sim, faz total sentido. É a forma mais direta de identificar padrões sazonais na série.
E se eu aumentar ou diminuir esse número, posso perder ou mascarar a ordem correta do modelo?
Sim. Diminuir pode fazer com que você perca um lag significativo, levando a um modelo subajustado. Aumentar pode adicionar ruído visual, mas a ordem correta ainda estará presente; você só terá que ignorar os lags insignificantes que vêm depois.
Em resumo, o ideal é usar uma combinação de critérios: comece com sqrt(N) para ter uma visão geral, e depois adicione mais lags para explorar a sazonalidade. Continue com esse pensamento crítico, ele é o que nos torna melhores cientistas de dados!