Solucionado (ver solução)

Solucionado
(ver solução)

4
respostas

por Ricardo Costa Val Do Rosario

| 334.3k xp | 614 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

Por Ricardo Costa Val do Rosário auxiliado por Microsoft CoPilot 365

Fluxograma do Ciclo de Vida de um LLM com LLM Ops

INÍCIO
  │
  ▼
[1. Definição do Problema]
  ├─ Objetivos do modelo
  ├─ Restrições de custo
  └─ Nível de precisão necessário
  │
  ▼
[2. Seleção do Modelo]
  ├─ Modelo base (open-source ou proprietário)
  ├─ Tamanho (7B, 13B, 70B…)
  └─ Trade-offs: custo x latência x qualidade
  │
  ▼
[3. Preparação dos Dados]
  ├─ Coleta e limpeza
  ├─ Anotação (se necessário)
  └─ Criação de datasets de avaliação
  │
  ▼
[4. Personalização]
  ├─ Fine-tuning (opcional)
  ├─ Ajuste de instruções
  └─ Implementação de RAG
  │
  ▼
[5. Avaliação e Testes]
  ├─ Testes de qualidade
  ├─ Testes de segurança
  ├─ Testes de alucinação
  └─ Cálculo de custo por requisição
  │
  ▼
[6. Implantação]
  ├─ API / Contêiner / Serverless
  ├─ Estratégias de cache
  └─ Configurações de escalabilidade
  │
  ▼
[7. Monitoramento Contínuo (LLM Ops)]
  │
  ├──► [Monitoramento de Custos]
  │       ├─ Tokens de entrada/saída
  │       ├─ Custo por usuário
  │       └─ Alertas de picos de consumo
  │
  ├──► [Monitoramento de Desempenho]
  │       ├─ Latência p50/p95/p99
  │       ├─ Erros de API
  │       └─ Throughput
  │
  └──► [Monitoramento de Alucinações]
          ├─ Classificação automática
          ├─ Comparação com fontes (RAG)
          └─ Feedback humano
  │
  ▼
[8. Loop de Melhoria Contínua]
  ├─ Ajuste de prompts
  ├─ Troca de modelo
  ├─ Melhoria do RAG
  ├─ Novos testes de regressão
  └─ Re-treinamento (se necessário)
  │
  ▼
RETORNA PARA A ETAPA 5 OU 6 (dependendo da mudança)
  │
  ▼
FIM

1. Ciclo de Vida de um LLM e Monitoramento LLM Ops

- O ciclo de vida de um Large Language Model (LLM) não termina quando o modelo é 
escolhido ou integrado a uma aplicação. 

- Em ambientes reais, ele funciona como um sistema vivo, que precisa ser observado, ajustado 
e aprimorado continuamente. 

- Por isso, práticas de LLM Ops são essenciais para garantir controle de custos, desempenho
consistente e redução de alucinações, sendo três pilares fundamentais para aplicações de IA 
generativa em produção.

# Na Prática: 
- Definição do Problema e Requisitos
•	O que o modelo precisa fazer?
•	Qual nível de precisão é aceitável?
•	Qual o orçamento disponível?

- Impacto
•	Escolha do modelo influencia diretamente custo por token, latência e risco de alucinação.
•	Modelos maiores nem sempre entregam melhor desempenho para tarefas simples.

2. Seleção do Modelo

- A escolha entre modelos pequenos, médios ou grandes determina o equilíbrio entre custo, 
latência e precisão. 

- Modelos maiores tendem a ser mais caros e mais lentos, enquanto modelos menores podem 
exigir ajustes adicionais. 

- A decisão deve considerar o contexto da aplicação e o nível de risco aceitável para 
alucinações.

# Na Prática
- Seleção do Modelo
•	Base model (GPT, Llama, Mistral etc.)
•	Tamanho (7B, 13B, 70B…)
•	Modelo hospedado vs. self-hosted

- Impacto
•	Modelos maiores → mais custo e mais latência.
•	Modelos menores → podem exigir fine-tuning para atingir qualidade.
•	Modelos open-source → reduzem custo, mas aumentam responsabilidade de 
monitoramento.

3. Preparação e Qualidade dos Dados

- Dados bem curados reduzem erros e aumentam a confiabilidade do modelo. 

- Nesta etapa são criados datasets de avaliação, fundamentais para medir a evolução do 
modelo ao longo do tempo e detectar regressões de qualidade.

# Na Prática
- Preparação de Dados
•	Curadoria
•	Limpeza
•	Anotação
•	Criação de datasets de avaliação

- Impacto
•	Dados mal preparados aumentam alucinações e reduzem desempenho.
•	Datasets de avaliação são essenciais para medir qualidade ao longo do tempo.

4. Fine tuning e/ou RAG

- A personalização do modelo pode ocorrer via fine tuning supervisionado ou via 
RAG (Retrieval Augmented Generation).
•	Fine tuning melhora o comportamento do modelo, mas aumenta custos.
•	RAG uma estratégia eficiente para aplicações corporativas.

# Na Prática
- Treinamento / Fine-tuning / RAG
•	Fine-tuning supervisionado
•	Instrução (SFT)
•	RLHF
•	Implementação de RAG (Retrieval-Augmented Generation)

- Impacto
•	Fine-tuning é caro → monitoramento de custo é crítico.
•	RAG reduz alucinações ao ancorar respostas em documentos reais.
•	Ajustes mal feitos podem piorar o modelo.

4 respostas

por Ricardo Costa Val Do Rosario

| 334.3k xp | 614 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

2 meses atrás

5. Avaliação e Testes

- Antes da implantação, o modelo passa por testes de desempenho, segurança e qualidade. 

- Métricas como taxa de acerto, custo por requisição, latência e taxa de alucinação são 
medidas de forma sistemática. 

- Essa etapa garante que o modelo atenda aos requisitos definidos inicialmente.

# Na Prática
- Avaliação e Testes
•	Benchmarks (MT-Bench, HELM, etc.)
•	Testes de segurança
•	Testes de alucinação
•	Testes de custo por requisição

- Impacto
•	Avaliação contínua evita regressões.
•	Métricas típicas: 
1.	Custo por 1.000 tokens
2.	Latência média
3.	Taxa de alucinação
4.	Taxa de respostas vazias
5.	Taxa de toxicidade

6. Implantação

- A implantação envolve decisões de infraestrutura, escalabilidade e caching. 

- Estratégias como batching, compressão de prompts e reutilização de respostas 
podem reduzir significativamente o custo operacional sem comprometer a experiência 
do usuário.

# Na Prática
- Implantação (Deployment)
•	API
•	Contêiner
•	Serverless
•	Edge

- Impacto
•	Estratégias de escalabilidade afetam custo operacional.
•	Cache de respostas pode reduzir custo em até 80%.
•	Configurações de batch podem reduzir latência.

7. Monitoramento Contínuo (LLM Ops)

- Após entrar em produção, o modelo passa a ser monitorado continuamente. 

- Essa é a etapa mais crítica para manter a qualidade e controlar gastos, sendo de fato, 
o coração da relação com custos, desempenho e alucinações.

# Na Prática

1. Monitoramento de Custos
•	Tokens de entrada e saída
•	Custo por usuário e por funcionalidade
•	Identificação de prompts caros
•	Alertas de picos de consumo

2. Monitoramento de Desempenho
•	Latência p50/p95/p99
•	Erros de API
•	Throughput
•	Quedas de performance ao longo do tempo

3. Monitoramento de Alucinações
•	Classificadores automáticos de factualidade
•	Comparação com fontes no RAG
•	Feedback humano estruturado
•	Testes periódicos com perguntas fixas
    
- Estas dimensões permitem detectar comportamentos inesperados, 
quedas de qualidade e desperdícios financeiros.

# Ferramentas comuns
•	Weights & Biases
•	Arize AI
•	LangSmith
•	Evidently AI
•	Prometheus + Grafana

8. Loop de Melhoria Contínua

- Os dados coletados alimentam um ciclo de ajustes que irá garantir que o modelo 
evolua junto com o uso real e permaneça confiável, por meio de: 
1.	otimização de prompts, 
2.	troca de modelos, 
3.	melhoria do RAG, 
4.	criação de novos testes,
5.	re treinamento (se necessário).

# Na Prática 
- Feedback Loop e Melhoria Contínua
•	Coleta de feedback dos usuários
•	Reavaliação de prompts
•	Ajuste de parâmetros
•	Re-treinamento periódico

- Impacto
•	Reduz alucinações com base em casos reais.
•	Otimiza custo ao identificar prompts caros e ineficientes.
•	Melhora desempenho ao ajustar arquitetura ou modelo.

9. Interligações entre as diferentes etapas do Ciclo


| 1Etapa | 2 Custos | 3 Desempenho |4 Alucinações|
| -------- | -------- | -------- |
| 1 Seleção do modelo    | 2 Modelos maiores custam mais| 3  Modelos maiores podem ser mais lento  | 4 Modelos menores tendem a alucinar mais | 
| -------- | -------- | -------- |
|1   Fine-tuning	  | 2 Treinamento é caro    | 3  Pode melhorar muito   | 4 Reduz alucinações se bem feito |
| -------- | -------- | -------- |
| 1 RAG    | 2  Barato de manter   | 3  Depende do index   | 4 Reduz drasticamente alucinações |
| -------- | -------- | -------- |
| 1 Monitoramento    | 2   Evita desperdício  | 3  Detecta lentidão   | 4 Detecta e corrige alucinações |
| -------- | -------- | -------- |
|1 Feedback loop    | 2 Otimiza custo    | 3 Melhora qualidade    | 4 Reduz erros reais |

10. Exemplo de Monitoramento LLM Ops

- Para ilustrar, considere uma aplicação que responde perguntas sobre documentos internos. 

- A cada requisição, são coletadas métricas como tokens utilizados, latência, custo estimado, 
avaliação do usuário e verificação de aderência à fonte. 

- Essas informações alimentam dashboards que mostram:
•	Custo total diário e por funcionalidade
•	Latência média e picos
•	Taxa de alucinação
•	Efetividade do RAG
•	Evolução da qualidade ao longo do tempo

- Com base nesses dados, a equipe identifica prompts ineficientes, ajusta o modelo padrão, 
melhora a recuperação de documentos e reduz alucinações. 

- O resultado é um sistema mais barato, mais rápido e mais confiável.

# Objetivo
- Criar um pipeline simples de monitoramento contínuo para um LLM usado em produção, 
acompanhando:
•	Custo por requisição
•	Latência
•	Qualidade da resposta
•	Risco de alucinação

- Esse exemplo simula um cenário real de uma aplicação que usa um LLM para responder perguntas 
sobre documentos internos.

por Ricardo Costa Val Do Rosario

| 334.3k xp | 614 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

2 meses atrás

10.1 Coleta de Métricas em Tempo Real

- A aplicação registra, a cada requisição:

# Métrica	Descrição
1. input_tokens	Tokens enviados ao modelo

2. output_tokens	Tokens gerados pelo modelo

3. latency_ms	Tempo total da requisição

4. model_name	Modelo usado

5. user_feedback	Avaliação do usuário (1–5)

6. ground_truth_match	Se a resposta bate com a fonte (true/false)

- Esses dados são enviados para um sistema de observabilidade 
(ex.: Prometheus, LangSmith, Arize).

10.2 Monitoramento de Custos

- Cada modelo tem um custo por 1.000 tokens.

# O sistema calcula automaticamente:
[ \text{custo_requisição} = \frac{(input_tokens + output_tokens)}{1000} \cdot \text{preço_modelo} ]

- E gera alertas quando:
•	Custo médio por usuário sobe acima do esperado
•	Um prompt específico dispara o custo
•	Um modelo mais caro é acionado sem necessidade

# Insight prático 
Descobrir prompts que geram respostas longas demais pode reduzir custos em até 40%.

10.3 Monitoramento de Desempenho

- As métricas de latência são agregadas:
•	p50 (mediana)
•	p95 (latência alta)
•	p99 (picos críticos)

- Alertas comuns:
•	Latência acima de 2 segundos
•	Queda de throughput
•	Erros de API (429, 500)

# Insight prático 
Trocar de modelo (ex.: 70B → 13B) pode reduzir latência sem perda de qualidade 
dependendo da tarefa.

10.4 Monitoramento de Alucinações

- Existem três camadas:

# A. Avaliação automática
- Um classificador binário marca respostas como:
•	“Factual”
•	“Possível alucinação”

- Baseado em heurísticas como:
•	Contradição com documentos do RAG
•	Confiança baixa no embedding
•	Resposta sem fonte

# B. Avaliação humana
- Usuários avaliam:
•	“A resposta estava correta?”
•	“A resposta estava completa?”
•	“A resposta inventou algo?”

C. Testes periódicos
- Um conjunto fixo de perguntas é rodado diariamente para medir:
•	Taxa de acerto
•	Taxa de alucinação
•	Mudanças de comportamento do modelo

# Insight prático 
Modelos podem “driftar” com o tempo — monitorar evita regressões silenciosas.

10.5 Dashboard Consolidado

- O painel final exibe:

1. Custos
•	Custo total diário
•	Custo por feature
•	Custo por usuário
•	Custo por modelo

2. Desempenho
•	Latência p50/p95/p99
•	Erros por minuto
•	Throughput

3. Qualidade
•	Taxa de alucinação
•	Score médio de feedback
•	Comparação entre modelos

4. RAG
•	Taxa de recuperação bem-sucedida
•	Documentos mais usados
•	Perguntas sem resposta

# Insight prático 
Dashboards revelam padrões invisíveis no código — como perguntas que sempre 
falham.

10.6 Loop de Melhoria Contínua

- Com base nos dados, ações típicas incluem:

•	Ajustar prompts que geram respostas longas demais
•	Trocar o modelo padrão para reduzir custo
•	Melhorar o RAG para reduzir alucinações
•	Criar novos testes de regressão
•	Re-treinar o modelo com feedback real

10.7 Como isso se conecta ao ciclo de vida do LLM

- Este exemplo prático mostra como o monitoramento:

•	Controla custos → detecta desperdícios e otimiza prompts/modelos
•	Melhora desempenho → reduz latência e erros
•	Reduz alucinações → valida respostas e ajusta o pipeline
•	Fecha o ciclo → alimenta o processo de melhoria contínua

- É exatamente isso que LLM Ops significa: tratar modelos de linguagem como 
sistemas vivos que precisam ser observados, avaliados e ajustados continuamente.

10.8 Considerações finais

1.	O ciclo de vida de um LLM é contínuo, exigindo monitoramento e aprimoramento 
constantes. 

2.	Custos são definidos por decisões sobre modelo e arquitetura; 

3.	Desempenho por engenharia e avaliação contínua; 

4.	Alucinações são reduzidas com dados e feedback real. 

5.	LLM Ops assegura valor, eficiência de custos, estabilidade e confiabilidade, 
sendo fundamental em soluções de IA generativa.

solução!

por Rafaela Petelin Silvério

| 1921.7k xp | 4369 posts

Alura Scuba Team

2 meses atrás

Oi, Ricardo! Como vai?

Agradeço por compartilhar suas reflexões e aprendizados com a comunidade Alura.

Gostei da forma como você estruturou todo o ciclo de vida do LLM, importante como você conectou avaliação, monitoramento e loop de melhoria contínua, mostrando que LLM Ops não é uma etapa isolada, mas um processo vivo alinhado a custos, desempenho e redução de alucinações. Sua explicação prática com métricas, dashboards e ferramentas reforça bem o que a aula propõe.

Continue explorando esse olhar sistêmico, ele faz muita diferença em cenários reais de produção. Dica: ao estudar LLM Ops, escolha um caso simples e simule o monitoramento, definindo poucas métricas-chave (custo, latência e qualidade) e acompanhando como pequenos ajustes de prompt ou modelo impactam esses números na prática.

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

por Ricardo Costa Val Do Rosario

| 334.3k xp | 614 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

2 meses atrás

Oi Rafaela,
Suas análises são sempre muito valiosas para mim, e suas sugestões mais ainda; sempre que possível, coloco-as em prática.
Muito obrigado,
Ricardo

Ciclo de Vida de um LLM e Monitoramento LLM Ops

Fluxograma do Ciclo de Vida de um LLM com LLM Ops

1. Ciclo de Vida de um LLM e Monitoramento LLM Ops

2. Seleção do Modelo

3. Preparação e Qualidade dos Dados

4. Fine tuning e/ou RAG

5. Avaliação e Testes

6. Implantação

7. Monitoramento Contínuo (LLM Ops)

8. Loop de Melhoria Contínua

9. Interligações entre as diferentes etapas do Ciclo

10. Exemplo de Monitoramento LLM Ops

10.1 Coleta de Métricas em Tempo Real

10.2 Monitoramento de Custos

10.3 Monitoramento de Desempenho

10.4 Monitoramento de Alucinações

10.5 Dashboard Consolidado

10.6 Loop de Melhoria Contínua

10.7 Como isso se conecta ao ciclo de vida do LLM

10.8 Considerações finais

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Fluxograma do Ciclo de Vida de um LLM com LLM Ops

1. Ciclo de Vida de um LLM e Monitoramento LLM Ops

2. Seleção do Modelo

3. Preparação e Qualidade dos Dados

4. Fine tuning e/ou RAG

5. Avaliação e Testes

6. Implantação

7. Monitoramento Contínuo (LLM Ops)

8. Loop de Melhoria Contínua

9. Interligações entre as diferentes etapas do Ciclo

10. Exemplo de Monitoramento LLM Ops

10.1 Coleta de Métricas em Tempo Real

10.2 Monitoramento de Custos

10.3 Monitoramento de Desempenho

10.4 Monitoramento de Alucinações

10.5 Dashboard Consolidado

10.6 Loop de Melhoria Contínua

10.7 Como isso se conecta ao ciclo de vida do LLM

10.8 Considerações finais

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP