IAs não leem, elas calculam! Para uma LLM, a diferença entre 'rei' e 'rainha' não é a nobreza, mas uma simples equação matemática em um mapa com milhares de dimensões."Elas não "entendem" o significado de uma palavra como um ser humano. Em vez disso, elas transformam cada palavra ou pedaço de palavra em uma longa lista de números, chamada de "vetor". Esse processo tem duas etapas principais:
Tokenização: Primeiro, o modelo quebra seu texto em pedaços, os "tokens". Um token pode ser uma palavra inteira ("gato"), parte de uma palavra ("pens-" e "-ando") ou até um sinal de pontuação. Por exemplo, a frase "Eu amo IA generativa" pode se tornar ["Eu", " amo", " IA", " gener", "ativa"].
Embeddings (A Criação do Mapa): A parte mais incrível vem agora. Cada um desses tokens é convertido em um vetor com centenas ou milhares de números. Esses números funcionam como coordenadas que posicionam o token em um "espaço semântico" de altíssima dimensão.