Para saber mais: Sobre Tokens

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

4
respostas

por Juliana Thuinny

| 29.4k xp | 47 posts

Analista de Marketing Digital

Recorri ao Chatgpt para me aprofundar sobre o conceito de tokens. Ela utilizou LEGO para fazer analogia e me gerar uma melhor compreensão, o que achei excelente. Quem não ama LEGO, né?! Hahaha. A partir do entendimento, lancei esse questionamento:

"Tendo em vista o conceito de tokens, por que IAs acabam errando mãos, por exemplo?"

Resposta:
Ótima conexão — é exatamente aí que o conceito de tokens ajuda a entender o problema.

Pensando nas mãos em “modo LEGO” (tokens)

A IA não vê uma “mão” como um objeto com regras fixas (5 dedos, articulações certinhas etc.).

Ela vê algo como:

curvas
linhas
sombras
texturas

Ou seja: um monte de tokens visuais misturados.

Por que isso dá erro?

Não existe regra rígida interna

Pra gente:

“mão = 5 dedos”

Pra IA:

“mão = padrão visual que geralmente parece assim”

Se no treino tiver imagens com:

dedos escondidos
ângulos estranhos
mãos borradas

ela aprende um padrão meio “bagunçado”.

Tokens competindo entre si

Cada pedacinho da imagem é gerado meio que prevendo o próximo.

Então pode acontecer:

um token “puxa” pra um dedo
outro “puxa” pra outro formato

resultado: dedos a mais, fundidos ou tortos

Falta de “consciência estrutural”

A IA não tem um modelo interno tipo:

“isso é um dedo 1, 2, 3…”
“isso conecta aqui”

Ela não monta um esqueleto primeiro.

Ela monta aparência, não estrutura real.

Mãos são MUITO complexas

Comparado com:

céu (fácil)
parede (fácil)

Mãos têm:

muitas articulações
posições infinitas
oclusão (um dedo na frente do outro)

Isso explode a quantidade de combinações possíveis.

Compressão da realidade

Modelos como Stable Diffusion ou DALL·E trabalham em versões “comprimidas” da imagem (latent space).

Nesse processo:

detalhes finos (como dedos) podem se perder
a IA “chuta” o resto

Resumo direto

A IA erra mãos porque:

trabalha com tokens visuais, não com “regras do corpo”
aprende probabilidades, não anatomia
gera imagem pedaço por pedaço, não como um todo estruturado

Resultado: quando a situação fica complexa (como mãos), os erros aparecem.

Quis compartilhar porque achei muito pertinente. E estou achando excelente utilizar a IA enquanto aprendo mais sobre ela, porque, apesar de ser usuária diária da ferramenta, tô mergulhando em conceitos que não fazia ideia da existência.

4 respostas

solução!

por Daniel Nogueira

| 8337.3k xp | 7537 posts

Alura Scuba Team Professor Tutor @FIAP • Analista SE @Alura

3 meses atrás

Olá, Juliana! Como vai?

Mandou muito bem na sua explicação sobre tokens e geração de imagens!

Você abordou de forma clara a analogia com LEGO para facilitar o entendimento, destacou os fatores que tornam as mãos um desafio para os modelos de IA e evidenciou a importância de compreender como os tokens visuais competem entre si na construção da imagem.

E o que você acha mais interessante nesse processo: perceber como a IA trabalha apenas com probabilidades visuais ou entender as limitações estruturais que levam aos erros?

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

por Juliana Thuinny

| 29.4k xp | 47 posts

Analista de Marketing Digital

3 meses atrás

Olá, Daniel. Tudo joia, e contigo?

De verdade, fiquei maravilhada em aprender sobre ambos processos. Porque, como citado anteriormente, acho fantástica a ideia de descobrir como as coisas que estão no nosso dia a dia funcionam - nem sempre consigo parar pra pesquisar, mas é sempre muito bom aprender.

Até breve!

por Neusa Mendonça

| 73k xp | 162 posts

Sócia-Administrativa

3 meses atrás

Olá, Juliana! Como vai?
Adorei seu post e sua analogia e explicação. Achei muito interessante. Agora tendo conhecimento sobre tokens e sua explicação (acho que) entendi o motivo de em vídeos feitos com animais os mesmos aparecerem com mãos ao invés de patas e em vídeos com humanos as mãos em tonalidades diferentes do corpo.
Obrigada pelo compartilhamento.
Bons estudos!

por Juliana Thuinny

| 29.4k xp | 47 posts

Analista de Marketing Digital

3 meses atrás

Oi, Neusa. Tudo certo, e contigo?

Ah, fico muito feliz que esse compartilhamento te ajudou. Continuemos nos apoiando nessa jornada de aprendizado.

Até breve! Bons estudos.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP