OpenAi Tokenizer: Por que apresenta uma quantidade de tokens diferente? | Engenharia de Prompt: criando prompts eficazes para IA Generativa

Oi!

Notei isso tbm, mas Isso pode ocorrer por vários motivos, mas não é exatamente porque o modelo foi melhor treinado em português desde a gravação da aula. A principal razão é que o processo de tokenização pode ser sensível a fatores como:

Versão do modelo: Pode ter havido atualizações no modelo de tokenização entre a gravação da aula e o momento em que você fez o teste, resultando em uma diferença na forma como a frase é dividida em tokens.
Método de tokenização: Existem diferentes tipos de tokenização (como BPE, SentencePiece, etc.), e dependendo da versão do modelo ou das configurações, isso pode impactar o número de tokens gerados para uma mesma entrada.
Espaços e pontuação: Às vezes, pequenos ajustes em como os espaços e pontuações são tratados podem levar a uma contagem de tokens diferente.

Seria interessante comparar o número de tokens utilizando a versão exata da API e configuração utilizada na aula. Se a diferença for significativa, talvez a versão do modelo tenha mudado ou algum detalhe de implementação tenha sido alterado.