Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"?
Outro ponto:
o e; - onde está o e na frase : Olá mundo!?
O mesmo acontece no ingles: world e; não tem a letra e na palavra world.
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"?
Outro ponto:
o e; - onde está o e na frase : Olá mundo!?
O mesmo acontece no ingles: world e; não tem a letra e na palavra world.
Olá, Ana, como vai?
A divisão em tokens nem sempre segue a lógica de sílabas ou letras. O processo é baseado em um vocabulário pré-treinado pelo modelo, que contém fragmentos de texto usados com frequência. Por isso, a palavra mundo pode ser separada em mund e o (dependendo do modelo, essa divisão é diferente inclusive). Esses fragmentos são escolhidos porque, durante o treinamento, essa combinação apareceu muitas vezes e se mostrou eficiente para representar a palavra. Assim, o modelo reutiliza pedaços já conhecidos para economizar espaço no vocabulário.
Um exemplo simples é a palavra caminhando. Ela pode ser quebrada em c, amin e hando, não porque essas partes tenham significado isolado, mas porque são blocos que o modelo já possui no vocabulário.
Sobre o ponto do "e" que aparece no material, a ideia ali não é indicar que existe um caractere "e" na palavra, mas apenas separar os itens da explicação. É apenas uma conjunção na frase, não um token representado.
Espero ter ajudado.
Siga firme nos seus estudos e conte com o fórum sempre que precisar.
Abraços :)