A pipeline de RAG funciona como uma arquitetura que conecta o modelo de linguagem a uma base externa de conhecimento. Primeiro, os documentos brutos, como PDFs, planilhas e arquivos de texto, são convertidos para um formato textual. Depois, esses textos são limpos, padronizados e divididos em partes menores, chamadas de chunks. Em seguida, cada trecho é transformado em embedding, ou seja, uma representação vetorial do seu significado, e armazenado em uma VectorStore.
Quando o usuário faz uma pergunta, o sistema também transforma essa pergunta em embedding e utiliza um retriever para buscar os trechos mais relevantes na base vetorial. Esses trechos recuperados são enviados como contexto para o LLM, que então gera uma resposta mais precisa, contextualizada e baseada nos documentos disponíveis.
Dessa forma, o RAG reduz a dependência do conhecimento genérico do modelo e melhora a confiabilidade das respostas, principalmente em cenários corporativos, onde as informações corretas estão em documentos internos, políticas, manuais e regras de negócio. No caso de uma empresa como a TRATOTECH, isso permitiria consultar documentos internos, manuais de produtos e políticas de venda para oferecer um suporte mais preciso, rápido e embasado.