Durante a implementação da pipeline RAG, a etapa de geração dos embeddings com OpenAI apresentou erro de quota insuficiente na API. Para não interromper o desenvolvimento e manter o foco no conceito principal da atividade, adaptei a solução utilizando um modelo open source de embeddings executado localmente no Google Colab, por meio do HuggingFaceEmbeddings.
Com essa alteração, foi possível manter a mesma arquitetura da pipeline: extração dos documentos, divisão em chunks, geração dos embeddings, armazenamento na VectorStore com FAISS e recuperação semântica dos trechos relevantes. A mudança ocorreu apenas no provedor dos embeddings, substituindo o modelo proprietário da OpenAI por um modelo open source.
Essa adaptação também reforça um ponto importante da arquitetura RAG: a escolha entre embeddings pagos e open source pode depender de custo, disponibilidade de cota, sensibilidade dos dados e necessidade de controle sobre o ambiente de execução.