Solucionado (ver solução)
Solucionado
(ver solução)
4
respostas

Para saber mais: Sobre Tokens

Recorri ao Chatgpt para me aprofundar sobre o conceito de tokens. Ela utilizou LEGO para fazer analogia e me gerar uma melhor compreensão, o que achei excelente. Quem não ama LEGO, né?! Hahaha. A partir do entendimento, lancei esse questionamento:

"Tendo em vista o conceito de tokens, por que IAs acabam errando mãos, por exemplo?"

Resposta:
Ótima conexão — é exatamente aí que o conceito de tokens ajuda a entender o problema.

Pensando nas mãos em “modo LEGO” (tokens)

A IA não vê uma “mão” como um objeto com regras fixas (5 dedos, articulações certinhas etc.).

Ela vê algo como:

curvas
linhas
sombras
texturas

Ou seja: um monte de tokens visuais misturados.

Por que isso dá erro?

  1. Não existe regra rígida interna

Pra gente:

“mão = 5 dedos”

Pra IA:

“mão = padrão visual que geralmente parece assim”

Se no treino tiver imagens com:

dedos escondidos
ângulos estranhos
mãos borradas

ela aprende um padrão meio “bagunçado”.

  1. Tokens competindo entre si

Cada pedacinho da imagem é gerado meio que prevendo o próximo.

Então pode acontecer:

um token “puxa” pra um dedo
outro “puxa” pra outro formato

resultado: dedos a mais, fundidos ou tortos

  1. Falta de “consciência estrutural”

A IA não tem um modelo interno tipo:

“isso é um dedo 1, 2, 3…”
“isso conecta aqui”

Ela não monta um esqueleto primeiro.

Ela monta aparência, não estrutura real.

  1. Mãos são MUITO complexas

Comparado com:

céu (fácil)
parede (fácil)

Mãos têm:

muitas articulações
posições infinitas
oclusão (um dedo na frente do outro)

Isso explode a quantidade de combinações possíveis.

  1. Compressão da realidade

Modelos como Stable Diffusion ou DALL·E trabalham em versões “comprimidas” da imagem (latent space).

Nesse processo:

detalhes finos (como dedos) podem se perder
a IA “chuta” o resto

Resumo direto

A IA erra mãos porque:

trabalha com tokens visuais, não com “regras do corpo”
aprende probabilidades, não anatomia
gera imagem pedaço por pedaço, não como um todo estruturado

Resultado: quando a situação fica complexa (como mãos), os erros aparecem.


Quis compartilhar porque achei muito pertinente. E estou achando excelente utilizar a IA enquanto aprendo mais sobre ela, porque, apesar de ser usuária diária da ferramenta, tô mergulhando em conceitos que não fazia ideia da existência.

4 respostas
solução!

Olá, Juliana! Como vai?

Mandou muito bem na sua explicação sobre tokens e geração de imagens!

Você abordou de forma clara a analogia com LEGO para facilitar o entendimento, destacou os fatores que tornam as mãos um desafio para os modelos de IA e evidenciou a importância de compreender como os tokens visuais competem entre si na construção da imagem.

E o que você acha mais interessante nesse processo: perceber como a IA trabalha apenas com probabilidades visuais ou entender as limitações estruturais que levam aos erros?

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

AluraConte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Olá, Daniel. Tudo joia, e contigo?

De verdade, fiquei maravilhada em aprender sobre ambos processos. Porque, como citado anteriormente, acho fantástica a ideia de descobrir como as coisas que estão no nosso dia a dia funcionam - nem sempre consigo parar pra pesquisar, mas é sempre muito bom aprender.

Até breve!

Olá, Juliana! Como vai?
Adorei seu post e sua analogia e explicação. Achei muito interessante. Agora tendo conhecimento sobre tokens e sua explicação (acho que) entendi o motivo de em vídeos feitos com animais os mesmos aparecerem com mãos ao invés de patas e em vídeos com humanos as mãos em tonalidades diferentes do corpo.
Obrigada pelo compartilhamento.
Bons estudos!

Oi, Neusa. Tudo certo, e contigo?

Ah, fico muito feliz que esse compartilhamento te ajudou. Continuemos nos apoiando nessa jornada de aprendizado.

Até breve! Bons estudos.