Olá, João. Como vai?
Parabéns pela excelente reflexão e análise prática! A engenharia de prompts é, em grande parte, sobre entender e guiar a probabilidade estatística por trás das respostas de um modelo de linguagem, e você capturou essa essência perfeitamente.
As imagens que você compartilhou ilustram muito bem o impacto da técnica de Few-Shot Prompting (fornecer poucos exemplos). No primeiro cenário, ao dar um exemplo ultraobjetivo (Resposta: A resposta é 11.), a IA capturou o padrão e respondeu à pergunta seguinte com o mesmo nível de concisão (A resposta é 9.). Já nas imagens posteriores, ao ver exemplos estruturados em tópicos detalhados com divisões matemáticas, ela replicou perfeitamente esse comportamento analítico.
Para agregar ainda mais valor à sua brilhante conclusão sobre as instruções do modelo, quero trazer duas perspectivas técnicas sobre o motivo desse comportamento acontecer e como você pode controlá-lo:
1. O Efeito de "Ancoragem" e a Janela de Contexto
Os Modelos de Linguagem de Grande Porte (LLMs) funcionam prevendo as próximas palavras com base em tudo o que foi escrito antes no chat. Quando você fornece exemplos no início, o modelo sofre um efeito que chamamos de ancoragem. Ele assume que o estilo dos exemplos é a regra de ouro para a conversa inteira.
No entanto, como você bem observou, se o prompt não for amarrado com regras explícitas no sistema, o modelo pode começar a sofrer uma "deriva de estilo" à medida que a conversa avança. Isso acontece porque, conforme o chat cresce, os exemplos originais vão ficando mais distantes na memória de curto prazo da IA (a janela de contexto), e ela passa a se ancorar nas suas próprias respostas curtas mais recentes.
2. Blindando o Prompt: Unindo Exemplos a Instruções do Sistema
Para responder à sua excelente pergunta final ("Até que ponto a qualidade depende do prompt ou da IA?"): a IA tem a capacidade técnica, mas o prompt é o mapa que impede que ela pegue atalhos preguiçosos.
Se o seu objetivo em produção for garantir que o modelo nunca perca o nível de detalhamento e transparência, a melhor prática é combinar os exemplos do Few-Shot com uma instrução estrita de comportamento (técnica conhecida como Role-Based System Prompt).
Veja um exemplo de como estruturar essa instrução:
[Instrução de Comportamento]
Você é um auditor matemático rigoroso. Para qualquer problema lógico ou matemático recebido, você deve OBRIGATORIAMENTE realizar uma segunda verificação dos cálculos e detalhar o raciocínio em tópicos antes de apresentar a resposta final, exatamente como nos exemplos abaixo.
[Exemplo 1]
Pergunta: [Problema]
Passo a passo:
- [Etapa 1]
- [Etapa 2]
Resposta final: [Resultado]
[Nova Pergunta]
Pergunta: [Insira o novo problema aqui]
Inserir essa chamada de "auditoria" ou forçar a IA a explicar o passo a passo antes de dar o veredito ativa um mecanismo conhecido como Chain-of-Thought (Cadeia de Raciocínio). Isso não apenas mantém o padrão visual que você deseja, mas também aumenta drasticamente a precisão matemática da IA, pois ela simula o pensamento lógico por etapas antes de concluir.
Você realizou um estudo fantástico sobre o comportamento dos modelos. Compartilhar essas observações ajuda muito a comunidade a entender que a IA é um reflexo direto da clareza das nossas instruções!
Espero que possa ter lhe ajudado!