[Projeto] Faça como eu fiz: montar uma VectorStore

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

por LEANDRO DOS SANTOS MOQUIUTI FERREIRA

| 137.2k xp | 126 posts

Nesta etapa, implementei uma VectorStore para armazenar embeddings gerados a partir de dados brutos. Primeiro, organizei os documentos em uma estrutura textual, adicionando metadados como origem, seção e categoria. Em seguida, dividi os textos em chunks utilizando uma estratégia de divisão recursiva com overlap, para preservar o contexto entre os trechos.

Depois, utilizei um modelo open source de embeddings para converter cada chunk em um vetor numérico. Esses vetores foram armazenados no ChromaDB, junto com o texto original e seus metadados, formando uma VectorStore persistente e adequada para uma pipeline RAG.

Com a VectorStore criada, configurei um retriever para realizar busca semântica. Dessa forma, quando uma consulta é feita pelo usuário, ela também é transformada em embedding e comparada com os vetores armazenados. O sistema retorna os chunks mais próximos semanticamente, permitindo localizar o contexto mais relevante mesmo quando a pergunta não usa exatamente as mesmas palavras dos documentos.

Por fim, realizei testes com diferentes consultas, validando se a busca recuperava corretamente trechos relacionados a garantia, cancelamento, pagamento e suporte. Esse processo demonstrou a importância da qualidade dos chunks, dos metadados e da escolha da VectorStore para a construção de uma arquitetura RAG eficiente.

https://github.com/Moquiuti/Arquiteturas-RAG-com-LLMs-embeddings-busca-sem-ntica-e-cria-o-de-agentes-com-LangChain/blob/main/VectorStore.ipynb

2 respostas

por Victor Costa Santos

| 3416.7k xp | 7146 posts

Alura Scuba Team

3 semanas atrás

Fala, Leandro! Tudo bem?

Meus parabéns por concluir a atividade e compartilhar o seu projeto detalhado com a gente!

O seu resumo do processo ficou excelente. A estratégia de utilizar chunks com overlap para manter a coesão dos textos, combinada com a inserção de metadados e a persistência no ChromaDB, mostra que você absorveu muito bem a base de uma arquitetura RAG. Validar a busca semântica na prática com o retriever também foi uma etapa essencial para garantir que os resultados trazidos façam sentido na aplicação.

Continue com essa dedicação! Registrar os seus avanços práticos no GitHub, assim como você fez, é um hábito incrível para construir um ótimo portfólio na área de dados e IA.

Conte sempre com a Alura para evoluir nos seus estudos.

Bons estudos!

Sucesso ✨

solução!

por LEANDRO DOS SANTOS MOQUIUTI FERREIRA

| 137.2k xp | 126 posts

3 semanas atrás

Obrigado Victor pelo feedback.

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema