1
resposta

OpenAi Tokenizer: Por que apresenta uma quantidade de tokens diferente?

Bom Dia, todos bem?

Estou na página do Tokenizer da OpenAi e digitei a mesma frase que o Fabricio mostrou em aula, e percebi que a quantidade de tokens ficou diferente.

Sabem me dizer o porque isso acontece? Seria porque o modelo foi melhor treinado em português desde a data em que a aula foi gravada até o dia de hoje?

No exemplo da aula 37 tokens e 152 characteres. Abaixo segue o que retornou pra mim, usando a mesmíssima frase.

Insira aqui a descrição dessa imagem para ajudar na acessibilidadeObrigada desde já!

1 resposta

Oi!

Notei isso tbm, mas Isso pode ocorrer por vários motivos, mas não é exatamente porque o modelo foi melhor treinado em português desde a gravação da aula. A principal razão é que o processo de tokenização pode ser sensível a fatores como:

  1. Versão do modelo: Pode ter havido atualizações no modelo de tokenização entre a gravação da aula e o momento em que você fez o teste, resultando em uma diferença na forma como a frase é dividida em tokens.
  2. Método de tokenização: Existem diferentes tipos de tokenização (como BPE, SentencePiece, etc.), e dependendo da versão do modelo ou das configurações, isso pode impactar o número de tokens gerados para uma mesma entrada.
  3. Espaços e pontuação: Às vezes, pequenos ajustes em como os espaços e pontuações são tratados podem levar a uma contagem de tokens diferente.

Seria interessante comparar o número de tokens utilizando a versão exata da API e configuração utilizada na aula. Se a diferença for significativa, talvez a versão do modelo tenha mudado ou algum detalhe de implementação tenha sido alterado.