Por Ricardo Costa Val do Rosário auxiliado por Microsoft CoPilot 365
Fluxograma do Ciclo de Vida de um LLM com LLM Ops
INÍCIO
│
▼
[1. Definição do Problema]
├─ Objetivos do modelo
├─ Restrições de custo
└─ Nível de precisão necessário
│
▼
[2. Seleção do Modelo]
├─ Modelo base (open-source ou proprietário)
├─ Tamanho (7B, 13B, 70B…)
└─ Trade-offs: custo x latência x qualidade
│
▼
[3. Preparação dos Dados]
├─ Coleta e limpeza
├─ Anotação (se necessário)
└─ Criação de datasets de avaliação
│
▼
[4. Personalização]
├─ Fine-tuning (opcional)
├─ Ajuste de instruções
└─ Implementação de RAG
│
▼
[5. Avaliação e Testes]
├─ Testes de qualidade
├─ Testes de segurança
├─ Testes de alucinação
└─ Cálculo de custo por requisição
│
▼
[6. Implantação]
├─ API / Contêiner / Serverless
├─ Estratégias de cache
└─ Configurações de escalabilidade
│
▼
[7. Monitoramento Contínuo (LLM Ops)]
│
├──► [Monitoramento de Custos]
│ ├─ Tokens de entrada/saída
│ ├─ Custo por usuário
│ └─ Alertas de picos de consumo
│
├──► [Monitoramento de Desempenho]
│ ├─ Latência p50/p95/p99
│ ├─ Erros de API
│ └─ Throughput
│
└──► [Monitoramento de Alucinações]
├─ Classificação automática
├─ Comparação com fontes (RAG)
└─ Feedback humano
│
▼
[8. Loop de Melhoria Contínua]
├─ Ajuste de prompts
├─ Troca de modelo
├─ Melhoria do RAG
├─ Novos testes de regressão
└─ Re-treinamento (se necessário)
│
▼
RETORNA PARA A ETAPA 5 OU 6 (dependendo da mudança)
│
▼
FIM
1. Ciclo de Vida de um LLM e Monitoramento LLM Ops
- O ciclo de vida de um Large Language Model (LLM) não termina quando o modelo é
escolhido ou integrado a uma aplicação.
- Em ambientes reais, ele funciona como um sistema vivo, que precisa ser observado, ajustado
e aprimorado continuamente.
- Por isso, práticas de LLM Ops são essenciais para garantir controle de custos, desempenho
consistente e redução de alucinações, sendo três pilares fundamentais para aplicações de IA
generativa em produção.
# Na Prática:
- Definição do Problema e Requisitos
• O que o modelo precisa fazer?
• Qual nível de precisão é aceitável?
• Qual o orçamento disponível?
- Impacto
• Escolha do modelo influencia diretamente custo por token, latência e risco de alucinação.
• Modelos maiores nem sempre entregam melhor desempenho para tarefas simples.
2. Seleção do Modelo
- A escolha entre modelos pequenos, médios ou grandes determina o equilíbrio entre custo,
latência e precisão.
- Modelos maiores tendem a ser mais caros e mais lentos, enquanto modelos menores podem
exigir ajustes adicionais.
- A decisão deve considerar o contexto da aplicação e o nível de risco aceitável para
alucinações.
# Na Prática
- Seleção do Modelo
• Base model (GPT, Llama, Mistral etc.)
• Tamanho (7B, 13B, 70B…)
• Modelo hospedado vs. self-hosted
- Impacto
• Modelos maiores → mais custo e mais latência.
• Modelos menores → podem exigir fine-tuning para atingir qualidade.
• Modelos open-source → reduzem custo, mas aumentam responsabilidade de
monitoramento.
3. Preparação e Qualidade dos Dados
- Dados bem curados reduzem erros e aumentam a confiabilidade do modelo.
- Nesta etapa são criados datasets de avaliação, fundamentais para medir a evolução do
modelo ao longo do tempo e detectar regressões de qualidade.
# Na Prática
- Preparação de Dados
• Curadoria
• Limpeza
• Anotação
• Criação de datasets de avaliação
- Impacto
• Dados mal preparados aumentam alucinações e reduzem desempenho.
• Datasets de avaliação são essenciais para medir qualidade ao longo do tempo.
4. Fine tuning e/ou RAG
- A personalização do modelo pode ocorrer via fine tuning supervisionado ou via
RAG (Retrieval Augmented Generation).
• Fine tuning melhora o comportamento do modelo, mas aumenta custos.
• RAG uma estratégia eficiente para aplicações corporativas.
# Na Prática
- Treinamento / Fine-tuning / RAG
• Fine-tuning supervisionado
• Instrução (SFT)
• RLHF
• Implementação de RAG (Retrieval-Augmented Generation)
- Impacto
• Fine-tuning é caro → monitoramento de custo é crítico.
• RAG reduz alucinações ao ancorar respostas em documentos reais.
• Ajustes mal feitos podem piorar o modelo.