Velocidade na resposta das LLMs

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

por Wagner Stoffel

| 39.1k xp | 5 posts

Tenho assistido a vários vídeos no YT sobre automação com o n8n, especialmente os que simulam o JARVIS, e eles são bastante interessantes. Porém, durante o curso, algo começou a me chamar a atenção: estamos executando testes que me parecem relativamente simples, mas as LLMs chegam a levar vários minutos para, às vezes, processar até mesmo uma planilha simples com cerca de 20 linhas.

Em contraste, nos vídeos que citei, observam-se workflows com quase uma dezena de nós, incluindo LLMs e integrações com spreadsheets, sendo executados de forma quase instantânea.

Isso é resultado de edição ou cortes nos vídeos? Eles utilizam versões pagas ou infraestruturas mais robustas que tornam a execução significativamente mais rápida? Trata-se sobretudo de otimização dos fluxos?

Em síntese: qual é exatamente o gargalo dos nossos workflows de aprendizado em comparação com os apresentados nos vídeos do YouTube?

2 respostas

solução!

por NATHALIA QUEIROZ

| 4114.4k xp | 9288 posts

Alura Scuba Team

3 meses atrás

Ei! Tudo bem, Wagner?

O ponto principal é: o gargalo quase sempre está no tempo de resposta do modelo, não no n8n em si. E aí entram alguns fatores que explicam a diferença para o que você vê nos vídeos:

Criadores editam o fluxo para ficar mais dinâmico. Mesmo execuções que demoram 20–40 segundos são aceleradas na edição.
Muitos usam versões pagas de LLMs ou infraestruturas próprias. As APIs pagas da OpenAI, Google, Anthropic, etc., têm: servidores mais rápidos; prioridade na fila de requisições; modelos mais otimizados. E isso faz muita diferença!
Nos vídeos, eles mostram o conceito. No mundo real, o prompt costuma ser mais elaborado, e isso aumenta o tempo de processamento.
No curso, você está usando dados “crus”. Planilhas, textos maiores, mensagens fora do padrão… tudo isso impacta. Nos vídeos, normalmente tudo é preparado para rodar perfeitamente.
Prompt enxuto, menor quantidade de tokens, modelos mais leves e configurações ajustadas fazem os fluxos ficarem muito mais rápidos.

No fim, o que vemos nos vídeos é uma combinação de edição + APIs mais rápidas + fluxos altamente otimizados + demonstrações simplificadas.
Quando você começa a montar seus próprios workflows, aparecem os tempos reais.

Mas é totalmente normal e conforme você for otimizando prompts e escolhendo modelos mais rápidos, o desempenho melhora bastante.

Espero ter ajudado e qualquer dúvida, compartilhe no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!

por Wagner Stoffel

| 39.1k xp | 5 posts

3 meses atrás

Muito obrigado pelo esclarecimento Nathalia!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema