Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)
3
respostas

[Sugestão] Modelos X Tokens X Custos

Se usarem o Tokenizer da OpenAI como sugerido na aula, e prestarem atenão observarão algo curioso:

  • Os modelos mais modernos como GPT 5 ou O1 geram menos tokens que os modelos anteriores gpt4 e 3.5 e 3 respectivamente.
  • Isso pode fazer diferença quanto menos tokens menos custos
  • Porém, precisa comparar os modelos mais novos são mais caros por milhão de token, e os mais antigos apesar de usar mais tokens são mais baratos, então precisa fazer uma métrica média e ver se o custo se mantém se reduz dependendo do seu propósito.

E teremos a relação direta entre modelo <-> Tokens <-> Custos para verificar seu Retorno sobre o investimento.

Talvez, saber economizar token venha a ser a grande "mágica" no uso de agentes que fazem uso intenso de tokens e contextos.

  • Saber escrever prompts mais simples e diretos
  • Usar RAG correto para seu propósito (HIbrido, busca exata, grafo, ingênuo etc)
  • Usar modos de simplificação de texto como Modo Caverna ou algum código de simplificação

Só algo que me ocorreu aqui, esta certo que essa aula é bem básica, mas o ver um comentário sugerindo que haverá uma versão da economia baseada em tokens, fica pertinente, uma vez que empresas medem atualmente pelo uso de tokens (tokenmaxxing) o que deve se mostrar em algum ponto que é preciso ser mais enxuto.

3 respostas
solução!

Ei! Tudo bem, Marcelo?

ocê tem toda razão: economizar tokens é uma das competências mais valiosas para quem desenvolve soluções em escala, especialmente com agentes autônomos e sistemas RAG (Retrieval-Augmented Generation).

Acho que vale trazer o ponto sobre o motivo de os modelos mais recentes gerarem menos tokens. Isso não acontece porque eles "encurtam" o texto, mas sim por causa da evolução do tokenizador (como o CL100KXL do GPT-4 e o o200k-base dos modelos mais novos). A OpenAI expandiu o vocabulário do tokenizador nas versões recentes. Na prática, isso significa que o modelo agora consegue agrupar pedaços maiores de palavras (ou palavras inteiras) em um único token. Uma frase que antes precisava de 10 tokens no GPT-3.5 pode virar 6 ou 7 tokens no GPT-5 ou O1, tornando o processamento semanticamente mais rico e eficiente.

Essa eficiência no inventário de tokens ajuda a balancear o custo por milhão, que costuma ser mais alto nesses modelos de ponta. Olhar para essa métrica média e calcular o ROI é o que diferencia um desenvolvedor comum de um arquiteto de soluções em IA. Estratégias como o Modo Caverna, engenharia de prompt enxuta e a escolha do RAG certo (como um RAG híbrido ou baseado em grafos para evitar buscas redundantes) são justamente as ferramentas que as empresas usam para combater o desperdício de recursos.

Excelente reflexão e contribuição para o fórum, obrigada por trazer!

Material Complementar
Esse conteúdo pode estar em inglês, para traduzi-lo utilize o tradutor automático do navegador ou clique com o botão direito do mouse sobre a página e selecione a opção Traduzir para o português.
Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Obrigado pelo retorno Nathalia, é um dos aspectos que devemos olhar

Obrigado pelo rico retorno Nathalia adorei e vou escrever algum post sobre isso no linkedin