Ola!.
O que provavelmente aconteceu aí não é exatamente um “erro”, mas sim uma limitação da validação naquele cenário. Esse tipo de avaliação depende muito de três fatores: qualidade dos documentos recuperados, como o retrieval está configurado (ex: top_k, embeddings, chunking), e também da métrica usada. Se o RAG não estiver trazendo contexto relevante ou se o modelo já consegue responder “mais ou menos” mesmo sem contexto, o score pode ficar parecido. Outro ponto é que métricas automáticas (como similaridade de texto) nem sempre capturam bem a diferença real entre respostas, então acabam dando notas baixas ou muito próximas.
Sobre o curso terminar sem corrigir: isso é meio intencional. A ideia ali é mostrar que nem sempre adicionar RAG melhora automaticamente os resultados ele precisa estar bem ajustado. Na prática, para melhorar esse cenário, você poderia testar:
- ajustar o
top_k (quantidade de documentos recuperados), - revisar como os textos foram quebrados (chunk size),
- verificar se os embeddings são adequados,
- e garantir que os documentos realmente têm a resposta esperada.
Ou seja, não é que você fez algo errado necessariamente o exemplo mostra justamente um caso onde o RAG não trouxe ganho claro, o que também acontece bastante em projetos reais.