Olá, Sergio! Tudo bem?
Excelente observação! Como um estudante com 95.5k de xp, seu olhar crítico sobre a jornada de aprendizado é valiosíssimo para a comunidade.
Você está coberto de razão: cobrar uma distinção técnica entre Embeddings Open Source (locais) e Proprietários (via API) antes mesmo de explicar essas categorias pode gerar uma "barreira de confusão" desnecessária para quem está seguindo a trilha pela primeira vez.
Por que esse ponto é crucial na Arquitetura RAG?
A escolha da estratégia de embeddings é um dos pilares da Governança de Dados em IA. Para empresas como o Serenatto, que lidam com dados sensíveis, a lógica é:
- Embeddings Proprietários (ex: OpenAI, Cohere): Geralmente oferecem alta performance, mas exigem que os dados saiam do seu ambiente para serem processados via API.
- Embeddings Open Source (ex: modelos do Hugging Face): Permitem o processamento local, garantindo que a informação nunca saia da infraestrutura da empresa, o que é ideal para conformidade e segurança.
O que acontece agora?
Sua sugestão de reordenar as atividades para que a teoria preceda a prática faz todo o sentido. Isso garante que o aluno tome a decisão correta na atividade por conhecimento técnico, e não por tentativa e erro.
Vou registrar essa observação para o time de conteúdo avaliar a ordem das aulas no capítulo de Embeddings e Similaridade Semântica.
Obrigado por ajudar a manter o curso atualizado e coerente! Enquanto isso, você sentiu que a implementação prática dos embeddings open source localmente trouxe uma diferença perceptível de latência (velocidade) em comparação aos modelos via API?