Apenas complementando a dúvida do Ricardo sobre como eu consegui economizar tokens através da escolha dinâmica do contexto:
Ocasião 1 - Dividindo o arquivo de contexto
Como a requisição da IA generativa em "selecionar_documento.py" é teoricamente mais simples, eu escolhi o modelo de GPT 3.5 turbo que é mais econômico(cerca de 20x mais barato) . E para o app.py mantive o modelo mais performático do momento"gpt-4-0125-preview".
Nessa ocasião, para selecionar o arquivo abri cerca 1,798 token no modelo "gpt-3.5-turbo" em selecionar_documento.py equivalente a aproximadamente $0,000899
E para o app.py mantive a versão mais recente e mais cara do gpt no momento "gpt-4-0125-preview". Dessa maneira quando o contexto chega nessa requisição, os números de tokens foi reduzido para 882 dos 1798 que é o documento inteiro. Valor: $0,00882
Gasto total com essa aplicação = $ 0,009719 por requisição (desconsiderando a mensagem do aluno que pode variar).
Ocasião 2 - mantendo tudo em um arquivo no app.py
Nessa ocasião, os 1798 tokens seriam todos gastos na aplicação principal com o modelo de maior performance.
Gasto total da aplicação = $0,01798 por requisição (desconsiderando a mensagem do aluno que pode variar).
resultado:
Economia de 46% por requisição.
Em operações de grande escala essa economia ainda pode ser maior.