Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Projeto] Faça como eu fiz: montar uma VectorStore

Nesta etapa, implementei uma VectorStore para armazenar embeddings gerados a partir de dados brutos. Primeiro, organizei os documentos em uma estrutura textual, adicionando metadados como origem, seção e categoria. Em seguida, dividi os textos em chunks utilizando uma estratégia de divisão recursiva com overlap, para preservar o contexto entre os trechos.

Depois, utilizei um modelo open source de embeddings para converter cada chunk em um vetor numérico. Esses vetores foram armazenados no ChromaDB, junto com o texto original e seus metadados, formando uma VectorStore persistente e adequada para uma pipeline RAG.

Com a VectorStore criada, configurei um retriever para realizar busca semântica. Dessa forma, quando uma consulta é feita pelo usuário, ela também é transformada em embedding e comparada com os vetores armazenados. O sistema retorna os chunks mais próximos semanticamente, permitindo localizar o contexto mais relevante mesmo quando a pergunta não usa exatamente as mesmas palavras dos documentos.

Por fim, realizei testes com diferentes consultas, validando se a busca recuperava corretamente trechos relacionados a garantia, cancelamento, pagamento e suporte. Esse processo demonstrou a importância da qualidade dos chunks, dos metadados e da escolha da VectorStore para a construção de uma arquitetura RAG eficiente.

https://github.com/Moquiuti/Arquiteturas-RAG-com-LLMs-embeddings-busca-sem-ntica-e-cria-o-de-agentes-com-LangChain/blob/main/VectorStore.ipynb

2 respostas

Fala, Leandro! Tudo bem?

Meus parabéns por concluir a atividade e compartilhar o seu projeto detalhado com a gente!

O seu resumo do processo ficou excelente. A estratégia de utilizar chunks com overlap para manter a coesão dos textos, combinada com a inserção de metadados e a persistência no ChromaDB, mostra que você absorveu muito bem a base de uma arquitetura RAG. Validar a busca semântica na prática com o retriever também foi uma etapa essencial para garantir que os resultados trazidos façam sentido na aplicação.

Continue com essa dedicação! Registrar os seus avanços práticos no GitHub, assim como você fez, é um hábito incrível para construir um ótimo portfólio na área de dados e IA.

Conte sempre com a Alura para evoluir nos seus estudos.

Bons estudos!

Sucesso

Imagem da comunidade
solução!

Obrigado Victor pelo feedback.