1
resposta

[Dúvida] Resultado da aula prática não faz o esperado

Olá, tudo bem?

Estive vendo a aula prática Pipeline para Dados Complexos Pratica #2. Na última parte da aula (minuto 17:08), é esperado que as duas perguntas diferentes retornem similaridade com documentos diferentes (uma associada ao PDF e outra associada aos registros via SQL). Na aula aparece que ambas retornam referência aos documentos relatorio_vendas.pdf, com documentos que em princípio não tem grande correlação com a pergunta em si. Adiciono a imagem para referência.

Referência da situação apresentada.

Qual seria a maneira ideal de ajustar os documentos para que o retrieval seja mais preciso para ambas as perguntas?

1 resposta

Ei, Luís, tudo bem?

Claro, vamos la! Aqui estão algumas sugestões para melhorar a precisão:

  1. Verifique se os metadados estão sendo corretamente atribuídos aos documentos. Isso ajuda o sistema a identificar a fonte correta de cada documento.

  2. Os embeddings utilizados podem não estar capturando bem a semântica dos documentos. Experimente ajustar o modelo de embeddings ou testar com outro modelo que possa capturar melhor as nuances dos seus dados.

  3. Certifique-se de que o texto dos documentos está bem formatado e com informações relevantes. Às vezes, a maneira como o texto é estruturado pode influenciar na similaridade calculada.

  4. O tamanho dos chunks pode influenciar na recuperação. Experimente ajustar o chunk_size e a chunk_overlap para ver se isso melhora a precisão.

  5. Veja se a maneira como as consultas são processadas pode ser melhorada. Às vezes, reformular a consulta ou adicionar contexto pode ajudar o sistema a encontrar resultados mais relevantes.

  6. Revise se o pipeline de processamento está corretamente configurado, especialmente na parte de união dos documentos antes de enviá-los para o VectorStore.

Espero que essas dicas te ajudem e qualquer dúvida, compartilhe no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!