Ficou confuso para mim

ANA CRISTINA DA SILVA · 2025-12-08 22:24

Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"? Outro ponto: o e; - onde está o e na frase : Olá mundo!? O mesmo acontece no ingles: world e; não tem a letra e n

Olá, Ana, como vai?

A divisão em tokens nem sempre segue a lógica de sílabas ou letras. O processo é baseado em um vocabulário pré-treinado pelo modelo, que contém fragmentos de texto usados com frequência. Por isso, a palavra mundo pode ser separada em mund e o (dependendo do modelo, essa divisão é diferente inclusive). Esses fragmentos são escolhidos porque, durante o treinamento, essa combinação apareceu muitas vezes e se mostrou eficiente para representar a palavra. Assim, o modelo reutiliza pedaços já conhecidos para economizar espaço no vocabulário.

Um exemplo simples é a palavra caminhando. Ela pode ser quebrada em c, amin e hando, não porque essas partes tenham significado isolado, mas porque são blocos que o modelo já possui no vocabulário.

Sobre o ponto do "e" que aparece no material, a ideia ali não é indicar que existe um caractere "e" na palavra, mas apenas separar os itens da explicação. É apenas uma conjunção na frase, não um token representado.

Espero ter ajudado.

Siga firme nos seus estudos e conte com o fórum sempre que precisar.

Abraços :)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP