Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Velocidade na resposta das LLMs

Tenho assistido a vários vídeos no YT sobre automação com o n8n, especialmente os que simulam o JARVIS, e eles são bastante interessantes. Porém, durante o curso, algo começou a me chamar a atenção: estamos executando testes que me parecem relativamente simples, mas as LLMs chegam a levar vários minutos para, às vezes, processar até mesmo uma planilha simples com cerca de 20 linhas.

Em contraste, nos vídeos que citei, observam-se workflows com quase uma dezena de nós, incluindo LLMs e integrações com spreadsheets, sendo executados de forma quase instantânea.

Isso é resultado de edição ou cortes nos vídeos? Eles utilizam versões pagas ou infraestruturas mais robustas que tornam a execução significativamente mais rápida? Trata-se sobretudo de otimização dos fluxos?

Em síntese: qual é exatamente o gargalo dos nossos workflows de aprendizado em comparação com os apresentados nos vídeos do YouTube?

2 respostas
solução!

Ei! Tudo bem, Wagner?

O ponto principal é: o gargalo quase sempre está no tempo de resposta do modelo, não no n8n em si. E aí entram alguns fatores que explicam a diferença para o que você vê nos vídeos:

  • Criadores editam o fluxo para ficar mais dinâmico. Mesmo execuções que demoram 20–40 segundos são aceleradas na edição.
  • Muitos usam versões pagas de LLMs ou infraestruturas próprias. As APIs pagas da OpenAI, Google, Anthropic, etc., têm: servidores mais rápidos; prioridade na fila de requisições; modelos mais otimizados. E isso faz muita diferença!
  • Nos vídeos, eles mostram o conceito. No mundo real, o prompt costuma ser mais elaborado, e isso aumenta o tempo de processamento.
  • No curso, você está usando dados “crus”. Planilhas, textos maiores, mensagens fora do padrão… tudo isso impacta. Nos vídeos, normalmente tudo é preparado para rodar perfeitamente.
  • Prompt enxuto, menor quantidade de tokens, modelos mais leves e configurações ajustadas fazem os fluxos ficarem muito mais rápidos.

No fim, o que vemos nos vídeos é uma combinação de edição + APIs mais rápidas + fluxos altamente otimizados + demonstrações simplificadas.
Quando você começa a montar seus próprios workflows, aparecem os tempos reais.

Mas é totalmente normal e conforme você for otimizando prompts e escolhendo modelos mais rápidos, o desempenho melhora bastante.

Espero ter ajudado e qualquer dúvida, compartilhe no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!

Muito obrigado pelo esclarecimento Nathalia!