R: Os LLMs preveem o próximo token utilizando princípios estatísticos aprendidos durante o treinamento com grandes volumes de dados. Inicialmente, o modelo atribui uma pontuação (logit) para cada possível token e, em seguida, aplica a função Softmax para transformar essas pontuações em probabilidades. Dessa forma, cada palavra recebe uma chance de ser escolhida conforme o contexto da frase. O token com maior probabilidade tende a ser selecionado, embora, quando as probabilidades são próximas, o modelo também possa considerar outras opções para gerar respostas mais naturais. Uma boa analogia é imaginar um atendente de cafeteria que, ao ouvir "café com...", prevê que a próxima palavra provavelmente será "leite", pois essa é a opção mais frequente entre os clientes. Assim, os LLMs utilizam padrões estatísticos semelhantes, porém aprendidos a partir de bilhões de exemplos. Se estivesse escolhendo o nome de uma criança! será que este modelo de linguagem natural, conseguiria criar percentual e classificar estes nomes?