Olá, pessoal! Estou acompanhando o curso de previsão com Keras e gostaria de compartilhar duas observações importantes, que podem impactar bastante a qualidade dos modelos em projetos reais.
Cuidado com o Data Leakage no pré-processamento
Percebi que no início do curso o StandardScaler foi ajustado antes da separação entre treino e teste. Isso pode parecer inofensivo, mas acaba gerando vazamento de dados (data leakage).
Ao ajustar o scaler em toda a base (incluindo teste), o modelo "vê" informações do futuro (média e desvio dos dados de teste) durante o treinamento, o que pode enviesar os resultados.
✅ O correto:
- Ajustar o scaler apenas nos dados de treino.
- Aplicar essa transformação no treino.
- Depois, usar o mesmo scaler já ajustado para transformar a base de teste.
Evitar lags irreais na previsão
Outro ponto é a forma como os lags (valores defasados) foram usados para prever a série temporal. Na base de treino, usar valores reais defasados (ex: 1, 2, 3 dias atrás) é correto.
Porém, na base de teste, usar os valores reais não representa a realidade.
Exemplo:
Se queremos prever amanhã (t+1), usamos hoje (t) — isso é ok. Mas para prever t+10, não teremos o valor real de t+9 disponível no futuro.
Portanto, o ideal seria:
- Prever t+1
- Usar essa previsão para estimar t+2
- E assim por diante.
Essa abordagem é mais próxima do que ocorre em um ambiente de produção.
Sei que o objetivo do curso é didático, mas achei importante compartilhar esses cuidados, para que possamos aplicar as boas práticas em projetos reais e evitar problemas como data leakage e previsões irreais.
Abraços!