https://colab.research.google.com/drive/1EgzkKeYlpzV0Nrn8_mRbnqyNU-mt-w77?usp=sharing
Olá, instrutores!
Aqui está minha implementação da atividade "Utilizando o Modelo Salvo". Documentei as decisões que um ambiente de produção real exige.
Decisões técnicas:
1 — joblib no lugar de pickle: o próprio sklearn recomenda explicitamente o joblib para serializar estimadores, pois internamente eles carregam arrays NumPy grandes — o joblib aplica compressão e memory-mapping automaticamente, enquanto o pickle serializa byte a byte sem otimização.
2 — DataFrame com colunas nomeadas como input: model.predict([lista]) funciona, mas cria dependência implícita na ordem dos elementos. Em produção, qualquer refatoração da feature engineering quebraria silenciosamente a predição. Com um DataFrame nomeado, o schema é explícito e auditável.
3 — Classificação de negócio no output: um float isolado não comunica nada para operações. Adicionei uma função classificar_atraso() que traduz minutos em faixas operacionais — leve, moderado, crítico — alinhando a saída do modelo com a linguagem da área de negócio.
Ponto de atenção: o modelo atual não retorna intervalos de confiança. Em produção, o ideal seria expor também a incerteza da predição (ex: via predict de modelos probabilísticos ou bootstrap). Isso é uma limitação conhecida do RandomForestRegressor padrão sem calibração adicional.
Agradeço o feedback!