Cuidado! Data Leakage e outros cuidados em previsões de séries temporais não abordados no curso

Olá, pessoal! Estou acompanhando o curso de previsão com Keras e gostaria de compartilhar duas observações importantes, que podem impactar bastante a qualidade dos modelos em projetos reais.

Cuidado com o Data Leakage no pré-processamento

Percebi que no início do curso o StandardScaler foi ajustado antes da separação entre treino e teste. Isso pode parecer inofensivo, mas acaba gerando vazamento de dados (data leakage).

Ao ajustar o scaler em toda a base (incluindo teste), o modelo "vê" informações do futuro (média e desvio dos dados de teste) durante o treinamento, o que pode enviesar os resultados.

✅ O correto:

Ajustar o scaler apenas nos dados de treino.
Aplicar essa transformação no treino.
Depois, usar o mesmo scaler já ajustado para transformar a base de teste.

Evitar lags irreais na previsão

Outro ponto é a forma como os lags (valores defasados) foram usados para prever a série temporal. Na base de treino, usar valores reais defasados (ex: 1, 2, 3 dias atrás) é correto.

Porém, na base de teste, usar os valores reais não representa a realidade.

Exemplo:

Se queremos prever amanhã (t+1), usamos hoje (t) — isso é ok. Mas para prever t+10, não teremos o valor real de t+9 disponível no futuro.

Portanto, o ideal seria:

Prever t+1
Usar essa previsão para estimar t+2
E assim por diante.

Essa abordagem é mais próxima do que ocorre em um ambiente de produção.

Sei que o objetivo do curso é didático, mas achei importante compartilhar esses cuidados, para que possamos aplicar as boas práticas em projetos reais e evitar problemas como data leakage e previsões irreais.

Abraços!

Importante

Cuidado! Data Leakage e outros cuidados em previsões de séries temporais não abordados no curso

Cuidado com o Data Leakage no pré-processamento

Evitar lags irreais na previsão

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Cuidado com o Data Leakage no pré-processamento

Evitar lags irreais na previsão

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP