Solucionado (ver solução)

Solucionado
(ver solução)

4
respostas

Referente ao curso LangChain: criando chatbots inteligentes com RAG, no capítulo Reduzindo alucinações e atividade Apresentação

por Ricardo Costa Val Do Rosario

| 342.9k xp | 628 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

RAG na Saúde: Combatendo Alucinações em Dispositivos Médicos Inteligentes

Por Ricardo Costa Val do Rosario auxiliado por ChatGPT 5.0 Plus

RAG aplicado à Saúde e Dispositivos Médicos Inteligentes (DM IA)

- Modelos de Linguagem de Grande Porte (LLMs), apesar de sua alta capacidade de geração de texto, 
sofrem de três limitações críticas:
1. Alucinações,
2. Conhecimento desatualizado,
3. Inacessibilidade a bases privadas e proprietárias.
    
- O RAG (Retrieval Augmented Generation) surge como a principal arquitetura para mitigar esses riscos, 
ao integrar busca semântica em dados reais, privados e auditáveis ao processo de geração de respostas, 
garantindo confiabilidade, rastreabilidade e segurança da informação.

Contextualização Clínica

- Na área da saúde, alucinações não representam apenas erros técnicos, mas sim riscos diretos à 
vida humana. 
- O uso de RAG torna-se um pilar estrutural da Tecnovigilância ao permitir que:
1. Protocolos clínicos reais sejam consultados em tempo real;
2. Laudos e diretrizes institucionais sejam respeitados;
3. Os (DM IA) operem sob bases científicas atualizadas.

Contextualização Ética e Regulatória

- O RAG está diretamente alinhado com:
•	LGPD (Brasil),
•	HIPAA (EUA),
•	ISO 13485 e IEC 62304, pois evita o envio de dados sensíveis para fora da infraestrutura 
institucional e garante explicabilidade (XAI) ao indicar a fonte exata da resposta.

Retrieval Augmented Generation (RAG)

- O RAG combina o melhor dos dois mundos: a busca precisa de um motor de busca com a capacidade 
de conversação de uma LLM. Assim, temos a busca mais geração, o que nos permite obter respostas 
inteligentes e confiáveis. 

- A combinação cria um sistema híbrido mais poderoso do que qualquer componente isolado. 

- São três componentes principais:
1. Retrieval (Recuperação): Envolve a busca de informações relevantes em documentos para 
responder a uma pergunta. O sistema busca documentos relevantes na base de conhecimento.

2. Augmentation (Aumento): Refere-se à melhoria das capacidades do modelo, 
inserindo informações encontradas como contexto no prompt do usuário.

3. Generation (Geração): Refere-se à capacidade natural das LLMs de gerar um texto coerente.

Descrição do processo RAG

1. A primeira etapa é a recuperação, que consiste em encontrar trechos de informações mais relevantes
em documentos para responder a uma pergunta. Ele utiliza, nessa primeira etapa, uma busca semântica, 
não apenas palavras-chave. 

2. O sistema busca documentos relevantes na base de conhecimento. 

3. Em seguida, ele aumenta o prompt do usuário, inserindo as informações encontradas como 
contexto. 

4. Finalmente, a LLM gera uma resposta com a instrução clara de usar apenas aquele contexto. 

5. Todo o processo ocorre de forma automática e em tempo real.

Definindo Alucinações e como evita-lás

Aumentar o prompt significa que ele adiciona informações relevantes ao contexto da pergunta e a 
instrução diz respeito a apenas este mesmo contexto, o que é crucial para evitar alucinações, 
pois, às vezes, o modelo não sabe a resposta e acaba inventando.

Explorando o aumento do contexto e componentes do RAG

- O truque do RAG é fornecer ao LLM um livro de consulta específico para cada pergunta, permitindo 
uma resposta precisa e baseada em fatos. 

- O processo envolve uma pergunta do usuário, seguida por uma busca semântica em documentos 
relevantes e aumenta o contexto, adicionando documentos ao prompt. 

- A LLM responde com base neste contexto específico, gerando uma resposta conforme as informações 
existentes.
    
# Exemplo, 
Se apergunta do usuário for sobre a política de devolução para produtos eletrônicos, o sistema recupera
o contexto: produtos eletrônicos podem ser devolvidos em até 30 dias com a nota fiscal, mas itens 
danificados não são elegíveis. 

A resposta gerada seria: "Nossa política permite a devolução de produtos eletrônicos em até 30 dias, 
desde que você apresente a nota fiscal e o produto não esteja danificado.

Componentes essenciais do RAG

incluem os embeds, que são representações numéricas, vetores que capturam o significado semântico 
dos textos, permitindo busca por similaridade. Basicamente, são os DNAs da informação. juntamente 
com um banco de dados vetorial. 

Ao armazenar os dados eles causam a indexação dos embeds para uma busca rápida e eficiente. 

# Exemplos incluem FIZE, CHROMA, PINECONE, entre outros.

4 respostas

por Ricardo Costa Val Do Rosario

| 342.9k xp | 628 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

30/11/2025

Detalhando o processo de chunk e geração de embed

 - O processo de chunk é importante, pois divide o documento em partes menores. 
 - O modelo de linguagem, a LLM, é o cérebro de todo o processo. 
 - O fluxo completo do RAG envolve um ciclo de vida em algumas etapas:
1. Ingestão do documento e consulta. 
2. Na geração do embed, cada chunk é convertido em um vetor numérico, representando
seu significado semântico. 
3. A indexação armazena os embeds em um banco de dados vetorial para busca eficiente. 
4. Na consulta e recuperação, a pergunta do usuário é convertida em embeds em um processo 
de conversão por buscas de chunks relevantes.
5. A LLM gera a resposta baseada nas perguntas e nos chunks recuperados como contexto.

Caso 01 — Suporte Clínico Baseado em Protocolos Institucionais

# Cenário: Um médico consulta o chatbot sobre o protocolo de sepse do hospital.
# Arquitetura:
•	PDF com protocolos
•	Embeddings
•	Banco vetorial Chroma
•	LLM com temperatura = 0

# Código (Python + LangChain)
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import GoogleGenerativeAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatGoogleGenerativeAI
from langchain.chains import RetrievalQA

# Carregar documento
loader = PyPDFLoader("protocolo_sepse.pdf")
documents = loader.load_and_split()

# Criar embeddings
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

# Criar banco vetorial
db = Chroma.from_documents(documents, embedding=embeddings)

# LLM
llm = ChatGoogleGenerativeAI(model="gemini-1.5-pro", temperature=0)

# Cadeia RAG
qa = RetrievalQA.from_chain_type(llm=llm, retriever=db.as_retriever())

# Consulta
pergunta = "Qual é o protocolo inicial para sepse grave?"
resposta = qa.run(pergunta)

print(resposta)

# Impacto: Redução de erro médico, padronização assistencial e atualização automática.

Caso 02 — Combate à Alucinação em Laudos Automatizados

# Cenário: Sistema gera laudos a partir de exames laboratoriais. O RAG garante que 
apenas tabelas oficiais sejam usadas como base.

retriever = db.as_retriever(search_kwargs={"k": 3})

prompt = """
Use exclusivamente o contexto abaixo para responder:
{context}
Pergunta: {question}
"""
# Impacto: Elimina laudos “inventados” por ausência de dados.

Caso 03 — Dispositivo Médico Inteligente com IA Embarcada (IoMT)

# Cenário: Um monitor multiparamétrico consulta uma base local de farmacologia
hospitalar antes de sugerir alertas.
# Fluxo:
•	Sensor → Microserviço → Banco Vetorial Local → LLM → Alerta Clínico
alert_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=db.as_retriever(),
    return_source_documents=True
)

# Impacto: Decisão embarcada segura, sem dependência da internet.

Caso 04 — Auditoria de Tecnovigilância Automatizada

# Cenário: 	Auditoria automática correlaciona eventos adversos com históricos 
de manutenção e falhas anteriores.

auditoria = qa.run("Existem falhas recorrentes no modelo X de bomba de infusão?")

# Impacto: Detecção precoce de padrões de risco e suporte à vigilância sanitária.

A Relevância da Temperatura

- No contexto dos Modelos de Linguagem (LLMs), o parâmetro temperatura é um dos ajustes 
fundamentais para controlar a variabilidade das respostas. 
    
# Mecanismo de Funcionamento
- A temperatura atua basicamente na distribuição de probabilidade da escolha das próximas 
palavras durante a geração de textos em dois processos tecnicamente distintos, a saber:

1. Temperatura baixa: reforça as probabilidades relativas das palavras mais prováveis, 
fazendo com que e o modelo selecione palavras com maior certeza e resultando em respostas 
consistentes e menos variadas.

2. Temperatura alta: ameniza as diferenças entre as probabilidades, reduzindo a escolha de 
palavras com menor probabilidade, gerando respostas mais diversificadas além de aumentar as
possibilidade de incoerências ou desvios do contexto desejado.


# Exemplo Prático
- Imagine um cenário em que o LLM precisa responder a uma pergunta com informações precisas, 
como uma política interna da empresa. Ao definir a temperatura como zero, garantimos uma resposta 
estável, sem variações desnecessárias. Por outro lado, se o objetivo for gerar ideias para um brainstorming,
aumentar a temperatura pode incentivar respostas mais diversas.

por Ricardo Costa Val Do Rosario

| 342.9k xp | 628 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

30/11/2025

Exemplo de definição de temperatura em um modelo LLM utilizando LangChain

from langchain.chat_models import ChatGoogleGenerativeAI

Inicializa o LLM com uma temperatura baixa para respostas determinísticas

llm = ChatGoogleGenerativeAI(model='M9 1.5 Pro Latest', temperature=0)

Exemplo de chamada do LLM com prompt simples

prompt = "Descreva a política de home office da empresa."
resposta = llm(prompt)
print(resposta.content)

Desafios na Implementação de RAG em Saúde

1. Curadoria rigorosa dos dados
2. Custo computacional de embeddings
3. Atualizações frequentes de bases clínicas
4. Governança da IA e versionamento das fontes
5. Segurança cibernética e proteção de dados sensíveis
6. Explicabilidade exigida por órgãos reguladores

Perspectivas Tecnológicas

1. Integração com FHIR + HL7
2. RAG multimodal (texto + imagem + biossinais)
3. RAG federado entre hospitais
4. Integração direta com Sistemas de Prontuário Eletrônico do Paciente (PEP)
5. RAG embarcado em equipamentos de UTI

Futuro do RAG na Medicina 5.0

- O futuro aponta para:
1. IA Clínica Autônoma Assistida por Dados Reais```
2. Hospitais Cognitivos
3. Auditorias contínuas automatizadas
4. Dispositivos Médicos autoexplicáveis
5. Tecnovigilância preditiva baseada em padrões vetoriais
6. O RAG deixa de ser apenas uma técnica e passa a ser um pilar da segurança digital hospitalar.

Considerações Finais

1. O RAG é uma revolução em diversos setores e problemas. 

2. Ele reduz alucinações, trabalha com conhecimento atualizado e oferece um custo-benefício interessante
e a transparência em seus processos de trabalho permite saber qual fonte foi usada para gerar a resposta, 
facilitando auditorias. 

3. Em termos de compliance, o RAG tem a  privacidade como item muito importante, pois dados sensíveis
podem permanecer dentro da infraestrutura, sem exposição externa, garantindo segurança.

4. O RAG pode ajudar a solucionar muitos problemas, tais como atendimento ao cliente, suporte técnico e 
médico, análise de documentos legais, pesquisa e desenvolvimento. 

5. A escolha da temperatura deve alinhar-se aos objetivos da aplicação. Em implementações onde a precisão 
e a repetibilidade são cruciais, uma temperatura baixa é ideal. 

6. Em cenários que demandam criatividade, experimentação ou geração de múltiplas alternativas, ajustes para 
valores  mais altos podem ser explorados. Esse balanceamento é fundamental para aproveitar ao máximo as
capacidades dos LLMs em diferentes contextos.

por Rafaela Petelin Silvério

| 1940.7k xp | 4439 posts

Alura Scuba Team

01/12/2025

Oi, Ricardo! Tudo bem?

Seu material está muito bem organizado, e o infográfico resume de forma clara e didática como o RAG reduz alucinações em dispositivos médicos inteligentes. A relação entre segurança, eficiência e o fluxo Recuperação → Aumento → Geração ficou objetiva e tecnicamente correta.

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

solução!

por Ricardo Costa Val Do Rosario

| 342.9k xp | 628 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

01/12/2025

Oi Rafaela, é muito bom saber disso.
Obrigado

RAG na Saúde: Combatendo Alucinações em Dispositivos Médicos Inteligentes

RAG na Saúde: Combatendo Alucinações em Dispositivos Médicos Inteligentes

RAG aplicado à Saúde e Dispositivos Médicos Inteligentes (DM IA)

Contextualização Clínica

Contextualização Ética e Regulatória

Retrieval Augmented Generation (RAG)

Descrição do processo RAG

Definindo Alucinações e como evita-lás

Explorando o aumento do contexto e componentes do RAG

Componentes essenciais do RAG

Detalhando o processo de chunk e geração de embed

Caso 01 — Suporte Clínico Baseado em Protocolos Institucionais

Caso 02 — Combate à Alucinação em Laudos Automatizados

Caso 03 — Dispositivo Médico Inteligente com IA Embarcada (IoMT)

Caso 04 — Auditoria de Tecnovigilância Automatizada

A Relevância da Temperatura

Exemplo de definição de temperatura em um modelo LLM utilizando LangChain

Inicializa o LLM com uma temperatura baixa para respostas determinísticas

Exemplo de chamada do LLM com prompt simples

Desafios na Implementação de RAG em Saúde

Perspectivas Tecnológicas

Futuro do RAG na Medicina 5.0

Considerações Finais

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

RAG na Saúde: Combatendo Alucinações em Dispositivos Médicos Inteligentes

RAG aplicado à Saúde e Dispositivos Médicos Inteligentes (DM IA)

Contextualização Clínica

Contextualização Ética e Regulatória

Retrieval Augmented Generation (RAG)

Descrição do processo RAG

Definindo Alucinações e como evita-lás

Explorando o aumento do contexto e componentes do RAG

Componentes essenciais do RAG

Detalhando o processo de chunk e geração de embed

Caso 01 — Suporte Clínico Baseado em Protocolos Institucionais

Caso 02 — Combate à Alucinação em Laudos Automatizados

Caso 03 — Dispositivo Médico Inteligente com IA Embarcada (IoMT)

Caso 04 — Auditoria de Tecnovigilância Automatizada

A Relevância da Temperatura

Exemplo de definição de temperatura em um modelo LLM utilizando LangChain

Inicializa o LLM com uma temperatura baixa para respostas determinísticas

Exemplo de chamada do LLM com prompt simples

Desafios na Implementação de RAG em Saúde

Perspectivas Tecnológicas

Futuro do RAG na Medicina 5.0

Considerações Finais

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP