1
resposta

Para saber mais: entendendo o que são tokens

Os tokens são a linguaguem universal das Ias, atraves deles que ela divide o que foi solicitado e foi respondido e faz a contagem de total de tokens que foram usados para ler a pergunta e reponder. Com base nisso é onde são cobradas as IAS pagas ou contadas o quanto tem em um acesso livre independente do pais que é usado, o que facilita não ter que ser criado uma cobrança para cada pais.

1 resposta

Olá, Marcelo. Como vai?

Muito bacana a sua iniciativa de compartilhar esse resumo aqui no fórum! O seu entendimento está corretíssimo. Você captou perfeitamente a visão estrutural e de negócios por trás dos grandes modelos de linguagem: usar os tokens como uma "moeda" ou "unidade de medida" universal facilita muito a padronização, o processamento e a cobrança dos serviços, independentemente do idioma que o usuário está digitando.

Para agregar ainda mais valor à sua postagem e complementar o seu raciocínio com a visão técnica, é muito interessante entendermos como a IA "enxerga" e divide esses tokens na prática.

Um detalhe curioso e muito importante para quem desenvolve prompts é que um token não equivale necessariamente a uma palavra inteira. Dependendo do tamanho e do idioma, uma palavra pode ser fatiada em vários pedaços. Funciona mais ou menos assim:

  • Palavras comuns e curtas: Geralmente contam como apenas 1 token. (Exemplo: bola, sol, mar).
  • Palavras longas ou complexas: São quebradas em múltiplos tokens, de forma semelhante à separação silábica, mas baseada em frequência de caracteres. (Exemplo: a palavra Inconstitucionalmente pode ser lida pela IA como In + constitucional + mente = 3 tokens).
  • Impacto do Idioma: Como a maioria das IAs foi treinada massivamente em textos em inglês, textos em português costumam "gastar" mais tokens para transmitir a mesma mensagem. Isso ocorre porque o modelo não reconhece algumas das nossas palavras de imediato e precisa quebrá-las em fragmentos menores, além de contar acentos e caracteres especiais (como o ç) separadamente em alguns casos.

Uma regra geral muito utilizada no mercado (especialmente nos modelos da OpenAI) é que 1 token equivale a aproximadamente 4 caracteres em um texto padrão.

Continue com essa excelente prática de documentar os seus aprendizados ao longo das aulas. Isso ajuda muito na sua retenção de conhecimento e também apoia os colegas que estão navegando pela mesma trilha que você!

Espero que possa ter lhe ajudado!