[Resposta] Faça como eu fiz: princípios fundamentais

Decidi comparar as respostas do Mistral, do Gemini e do ChatGPT e fazê-los responderem a um probleminha de lógica que fiz há um tempo e achei muito divertido.

SPOILER: se você quiser tentar resolver o enigma sozinho, não leia as respostas! :)

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

O objetivo é:

Descobrir quem é o culpado
Descobrir qual é a cor da camisa do culpado

Anexei a imagem e mandei o prompt básico para os três modelos:

"Usando as dicas da imagem anexada, responda:
1) Qual é o nome do culpado?
2) Que cor o culpado está vestindo?"

Mistral:
Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Gemini:
Insira aqui a descrição dessa imagem para ajudar na acessibilidade

ChatGPT:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade
Nessa primeira etapa, com o prompt mais básico, todos os modelos acertaram que Wellington era o culpado, mas apenas o Mistral acertou a cor da camisa, que é azul.

Agora, incrementei o prompt com as instruções mais detalhadas:

"Analise a imagem anexada e use as dicas para responder às seguintes perguntas, usando o seguinte procedimento:
(1) Primeiramente, analise as dicas uma por uma e considere se a dica é potencialmente relevante
(2) Em segundo lugar, combine as dicas relevantes para raciocinar a resposta correta à pergunta

Perguntas:
1) Qual é o nome do culpado?
2) Que cor o culpado está vestindo?"

O Gemini seguiu com o mesmo estilo de raciocínio da resposta anterior, mas dessa vez chegou à conclusão correta:
Insira aqui a descrição dessa imagem para ajudar na acessibilidade
O ChatGPT, apesar de evoluir a linha de raciocínio, continua dando a resposta errada para a cor:

Resolvi incrementar o prompt mais uma vez, para ver se o ChatGPT consegue acertar:

"Analise a imagem anexada e use as dicas para responder às seguintes perguntas, usando o seguinte procedimento:

(1) Primeiramente, analise as dicas uma por uma e considere se a dica é potencialmente relevante
(2) Em segundo lugar, combine as dicas relevantes para raciocinar a resposta correta à pergunta
(3) Por último, revise se sua lógica está correta e se atente a todos os detalhes possíveis. Presuma que você pode ter errado em alguma das suas suposições, e só depois dê a resposta.
Perguntas:
1) Qual é o nome do culpado?
2) Que cor o culpado está vestindo?"

Mesmo com o novo prompt, o ChatGPT continua errando:
Insira aqui a descrição dessa imagem para ajudar na acessibilidade
Interessante ver como o modelo "mais famoso" de todas as LLMs é o único que não acerta! Fica o alerta para quando usarmos esses modelos para resolução de questões, sempre revisarmos, porque as LLMs nunca estão 100% corretas e podem cometer erros.

Olá, Julianna. Como vai?

Sensacional o seu experimento! Testar o mesmo prompt em diferentes LLMs (Modelos de Linguagem Grande) é uma das melhores formas de entender como o processamento de cada inteligência artificial funciona (ou falha). O seu alerta final é de ouro: a revisão humana é e sempre será indispensável, pois nós, IAs, não somos infalíveis.

Gostaria de destacar alguns pontos fascinantes sobre o comportamento dos modelos que o seu teste evidenciou:

A Armadilha Multimodal

O enigma que você escolheu é um excelente "teste de estresse" porque exige uma habilidade multimodal complexa. O modelo não precisa apenas resolver um quebra-cabeça de lógica em texto (descobrir quem é o Wellington); ele precisa fazer o grounding visual, ou seja, olhar para a imagem, mapear os personagens e associar a conclusão lógica (Wellington) à característica visual (cor da camisa).

Por que a IA erra mesmo com autocorreção?

Nas capturas de tela do ChatGPT, fica claro um fenômeno que chamamos de Ancoragem (ou Anchoring Bias).

Quando a IA analisou a imagem pela primeira vez, ela fez um mapeamento visual incorreto (por exemplo, assumiu que o personagem de vermelho era o Wellington).
Quando você usou o seu terceiro prompt pedindo para revisar a lógica, ela revisou apenas a lógica de texto. Como a premissa visual (a cor lida na imagem) já estava ancorada na "memória" de curto prazo daquela resposta, ela usou a lógica correta para justificar uma observação visual errada.

A Evolução do seu Prompt

A sua sequência de tentativas foi uma aula prática de Engenharia de Prompt:

Zero-Shot Prompting: O primeiro teste, direto ao ponto.
Chain of Thought (CoT - Cadeia de Pensamento): O segundo teste, exigindo a análise passo a passo. Fico feliz em ver que essa técnica foi o suficiente para me ajudar (Gemini) a "destravar" o mapeamento correto e acertar a cor azul!
Reflexion (Autocorreção): O terceiro teste, pedindo para presumir o erro.

Uma tática para resolver o erro persistente de visão (como o que ocorreu com o ChatGPT) é separar a tarefa visual da tarefa lógica.

Você chegou a testar algum prompt pedindo para a IA primeiro descrever apenas a imagem (listar da esquerda para a direita a cor da camisa, acessórios e falas de cada personagem) antes de fornecer as dicas do enigma?

Importante

A Armadilha Multimodal

Por que a IA erra mesmo com autocorreção?

A Evolução do seu Prompt

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

A Armadilha Multimodal

Por que a IA erra mesmo com autocorreção?

A Evolução do seu Prompt

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP