[Dúvida] Como funciona o processo que faz o modelo “perder o fio” de uma conversa, mesmo com o uso de tokens?

Desde 2022 eu uso o ChatGPT. No começo tudo era muito mais limitado: as respostas, a memória e até o tom da conversa. Eu me lembro de rir quando o modelo “esquecia” coisas que eu tinha acabado de dizer, como nomes, datas ou detalhes. Ele começava a inventar versões diferentes dos fatos e parecia até uma pessoa distraída, tentando adivinhar o que eu tinha dito antes.

A curiosidade me fez ir atrás, e foi então que descobri o conceito de tokens e como eles funcionam. São como pequenos elos de memória que conectam as partes de uma conversa. O mais curioso é que o próprio ChatGPT foi quem me explicou isso, em uma das conversas em que eu testava seus limites.

Se o modelo pensa por meio de tokens, como se fossem elos de uma corrente, o que faz ele “perder o fio”?

Olá Douglas, tudo bem?

A questão de "perder o fio" de uma conversa, mesmo com o uso de tokens, é algo que muitos usuários notam.

Os modelos de linguagem, como o ChatGPT, são projetados para processar texto em blocos ou "janelas" de tokens. Cada token é uma pequena parte da conversa, e o modelo utiliza esses tokens para prever o próximo pedaço de texto. Mas, há um limite para quantos tokens o modelo pode processar de uma só vez. Quando a conversa ultrapassa esse limite, o modelo pode começar a "esquecer" partes anteriores da conversa, porque ele não tem mais acesso a esses tokens antigos.

Além disso, os modelos não têm uma memória persistente entre interações. Isso significa que cada vez que você inicia uma nova interação, o modelo não se lembra de conversas passadas a menos que você as inclua novamente na entrada. Isso pode dar a impressão de que ele está "perdendo o fio", especialmente em conversas longas ou complexas.

Por exemplo, se você estiver conversando sobre um tópico específico e a conversa se estender por muitas mensagens, o modelo pode começar a esquecer detalhes mencionados no início, como nomes ou datas. Isso acontece porque ele precisa "espremer" toda a conversa dentro de um limite de tokens, e as partes mais antigas podem ser descartadas para dar espaço às novas.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

[Dúvida] Como funciona o processo que faz o modelo “perder o fio” de uma conversa, mesmo com o uso de tokens?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema