Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Sugestão] Diferença entre chunks e tokens

Olá, poderia por favor explicar melhor a diferença entre chunks e tokens? na parte que explica sobre o modelo de Embedding ficou um pouco confuso.

Obrigada!

Garanta sua matrícula hoje e ganhe + 2 meses grátis

Continue sua jornada tech com ainda mais tempo para aprender e evoluir

Quero aproveitar agora
2 respostas
solução!

Oi, Veronica! Como vai?

A diferença entre chunks e tokens está na forma como o texto é dividido para ser entendido pelo modelo.

Chunks são pedaços maiores de texto criados para facilitar o processamento — como parágrafos, frases ou blocos de informação. Eles são definidos por quem está desenvolvendo a aplicação, para que o modelo não precise lidar com textos muito longos de uma vez.

Tokens são as menores unidades que o modelo realmente entende. Podem ser palavras, partes de palavras ou até símbolos. É a forma como o texto é transformado internamente para que o modelo consiga processá-lo matematicamente.

Resumindo:

  • Você cria chunks para organizar o texto em partes coerentes.
  • O modelo divide esses chunks em tokens para compreender e gerar respostas.
  • Um chunk pode conter dezenas ou centenas de tokens.

Por exemplo:
Se você tiver um parágrafo com 200 palavras (um chunk), o modelo pode transformá-lo em cerca de 300 a 400 tokens, dependendo da linguagem e da estrutura das frases.

Espero ter ajudado. Conte com o apoio do Fórum na sua jornada. Fico à disposição.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Olá, Rafaela!

Muito obrigada pela explicação.