1
resposta

Ficou confuso para mim

Por que por exemplo mundo, tem dois tokens, um para "mund" e outra para "o"?
Outro ponto:
o e; - onde está o e na frase : Olá mundo!?
O mesmo acontece no ingles: world e; não tem a letra e na palavra world.

1 resposta

Olá, Ana, como vai?

A divisão em tokens nem sempre segue a lógica de sílabas ou letras. O processo é baseado em um vocabulário pré-treinado pelo modelo, que contém fragmentos de texto usados com frequência. Por isso, a palavra mundo pode ser separada em mund e o (dependendo do modelo, essa divisão é diferente inclusive). Esses fragmentos são escolhidos porque, durante o treinamento, essa combinação apareceu muitas vezes e se mostrou eficiente para representar a palavra. Assim, o modelo reutiliza pedaços já conhecidos para economizar espaço no vocabulário.

Um exemplo simples é a palavra caminhando. Ela pode ser quebrada em c, amin e hando, não porque essas partes tenham significado isolado, mas porque são blocos que o modelo já possui no vocabulário.

Sobre o ponto do "e" que aparece no material, a ideia ali não é indicar que existe um caractere "e" na palavra, mas apenas separar os itens da explicação. É apenas uma conjunção na frase, não um token representado.

Espero ter ajudado.

Siga firme nos seus estudos e conte com o fórum sempre que precisar.

Abraços :)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado