Ao utilizar o ChatGPT para completar as frases com o prompt sugerido, iniciei com a frase "Eu tenho uma", e isto foi o que se seguiu:
- casa - 30%
- ideia - 25%
- amizade - 20%
- vida - 15%
- pergunta - 10%
Segui com "Eu tenho uma ideia":
- de - 40%
- sobre - 30%
- para - 15%
- que - 10%
- melhor - 5%
Acrescentei "sobre":
- como - 35%
- o - 25%
- o que - 15%
- um - 10%
- isso - 10%
Inverti o prompt para que me trouxesse as palavras com menores probabilidades e segui com a mesma frase inicial:
- jornada - 0.01%
- toalha - 0.02%
- relâmpago - 0.03%
- microfone - 0.05%
- dúvida - 0.08%
Notei que mesmo colocando eu tenho uma, o modelo trouxe relâmpago e microfone, que claramente não se encaixam no contexto da frase. Segui com a palavra toalha:
- química - 0.01%
- sensação - 0.03%
- estrela - 0.05%
- pintura - 0.08%
- galáxia - 0.1%
Fácil entender porque estas são palavras com poucas chances de serem sugeridas, mas segui com química para ver onde chegaria:
- espacial - 0.01%
- elétrica - 0.02%
- matemática - 0.03%
- musical - 0.04%
- histórica - 0.05%
Interessante como o modelo permite tanto criar frases que fazem total sentido quanto frases que contém palavras totalmente desconexas ou sem sentido. Coloquei ambas as frases criadas no tokenizer para ver a "construção" das mesmas. A única diferença na quantidade de tokens ficou entre ideia e toalha, já que ideia utiliza apenas um token, e toalha fica separada em "toal" e "ha". Se minha professora de português do colégio visse esta separação de sílabas, teria um infarto!