Olá, poderia por favor explicar melhor a diferença entre chunks e tokens? na parte que explica sobre o modelo de Embedding ficou um pouco confuso.
Obrigada!
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Olá, poderia por favor explicar melhor a diferença entre chunks e tokens? na parte que explica sobre o modelo de Embedding ficou um pouco confuso.
Obrigada!
Oi, Veronica! Como vai?
A diferença entre chunks e tokens está na forma como o texto é dividido para ser entendido pelo modelo.
Chunks são pedaços maiores de texto criados para facilitar o processamento — como parágrafos, frases ou blocos de informação. Eles são definidos por quem está desenvolvendo a aplicação, para que o modelo não precise lidar com textos muito longos de uma vez.
Tokens são as menores unidades que o modelo realmente entende. Podem ser palavras, partes de palavras ou até símbolos. É a forma como o texto é transformado internamente para que o modelo consiga processá-lo matematicamente.
Resumindo:
Por exemplo:
Se você tiver um parágrafo com 200 palavras (um chunk), o modelo pode transformá-lo em cerca de 300 a 400 tokens, dependendo da linguagem e da estrutura das frases.
Espero ter ajudado. Conte com o apoio do Fórum na sua jornada. Fico à disposição.
Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado
Olá, Rafaela!
Muito obrigada pela explicação.