Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"?
Outro ponto:
o e; - onde está o e na frase : Olá mundo!?
O mesmo acontece no ingles: world e; não tem a letra e na palavra world.
Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"?
Outro ponto:
o e; - onde está o e na frase : Olá mundo!?
O mesmo acontece no ingles: world e; não tem a letra e na palavra world.
Olá, Ana, como vai?
A divisão em tokens nem sempre segue a lógica de sílabas ou letras. O processo é baseado em um vocabulário pré-treinado pelo modelo, que contém fragmentos de texto usados com frequência. Por isso, a palavra mundo pode ser separada em mund e o (dependendo do modelo, essa divisão é diferente inclusive). Esses fragmentos são escolhidos porque, durante o treinamento, essa combinação apareceu muitas vezes e se mostrou eficiente para representar a palavra. Assim, o modelo reutiliza pedaços já conhecidos para economizar espaço no vocabulário.
Um exemplo simples é a palavra caminhando. Ela pode ser quebrada em c, amin e hando, não porque essas partes tenham significado isolado, mas porque são blocos que o modelo já possui no vocabulário.
Sobre o ponto do "e" que aparece no material, a ideia ali não é indicar que existe um caractere "e" na palavra, mas apenas separar os itens da explicação. É apenas uma conjunção na frase, não um token representado.
Espero ter ajudado.
Siga firme nos seus estudos e conte com o fórum sempre que precisar.
Abraços :)