3
respostas

BIG DATA NA SAÚDE

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

BIG DATA NA SAÚDE

Do dado bruto à decisão clínica: complexidade, governança, interoperabilidade e IA aplicada

Por Ricardo Costa Val do Rosário
Médico; especialização em IA aplicada à Saúde
(Alura /SP)

Declaração de Legitimidade de Autoria e Conformidade com LGPD

Documento redigido pelo autor com apoio instrumental de IA (ChatGPT – 
OpenAI e Microsoft Copilot 365) para organização e revisão. 

O autor assume integral responsabilidade pelo conteúdo final; nenhum dado
identificável de paciente foi inserido na documento.

Sumário

1. Contextualização e objetivo
2. Conceitos essenciais (5Vs, interoperabilidade e governança)
3. Fontes e ecossistema de dados em saúde no Brasil
4. Complexidade dos Dados na Saúde
5. Aplicações clínicas e organizacionais
6. Riscos, limites e desafios no contexto brasileiro
7. Roteiro de implantação em serviços de saúde (checklist prático)
8. Tendências 2025-2026 e alinhamento com o PBIA 2025
9. Exemplos de modelagem e código (pseudocódigo, JSON e Python)
10. Considerações finais
11. Referências bibliográficas

1. Contextualização e objetivo

O ecossistema de saúde gera dados continuamente: registros assistenciais, exames 
laboratoriais e de imagem, dados administrativos, sinais vitais capturados por dispositivos
(IoMT) e bases públicas. 
    
A maturidade em Big Data permite sair de uma medicina predominantemente reativa
(responder ao evento) para uma estratégia orientada por evidências, prevenção e eficiência
operacional.  
    
Este documento organiza o tema em linguagem técnica e aplicada, visando apoiar 
profissionais de saúde que atuam (ou desejam atuar) com IA, governança e inovação clínica.

# Objetivos específicos:
•	Definir Big Data em saúde e seus elementos técnicos essenciais.
•	Mapear bases e fontes relevantes no Brasil (SUS, saúde suplementar e vigilâncias).
•	Discutir a complexidade dos dados da saúde e peculiaridades
•	Descrever um pipeline operacional com governança e conformidade.
•	Apresentar aplicações práticas, riscos e um roteiro de implantação.
•	Disponibilizar exemplos de modelagem (pseudocódigo, JSON e Python) com dados 
sintéticos.

2. Conceitos essenciais

# 2.1 O que caracteriza Big Data em saúde
Em saúde, Big Data não é apenas “muito dado”; é a combinação de volume, velocidade e 
variedade com requisitos rígidos de veracidade, valor e vigilância (rastreabilidade). 

Na prática, isso exige infraestrutura (armazenamento e processamento), arquitetura de 
dados e governança forte para que o resultado seja clinicamente útil e juridicamente seguro.

# 2.2 Os 5Vs (adaptação para o contexto clínico)
|5Vs|	Tradução prática na saúde |
| -------- | -------- |
|Volume	|EHR/PEP, imagens, exames seriados, dados de IoMT e bases populacionais (SUS).|
| -------- | -------- |
|Velocidade |	Dados em tempo real (monitorização), alertas e streaming de dispositivos.|
| -------- | -------- |
|Variedade	|Texto clínico, sinais vitais, imagem, dados administrativos, genômica e dados sociais.|
| -------- | -------- |
|Veracidade	|Qualidade, consistência, completude, padronização e controle de vieses.|
| -------- | -------- |
|Valor	| Impacto mensurável: desfecho, segurança do paciente, eficiência e equidade.|

# 2.3 Interoperabilidade e terminologias
Interoperabilidade é o requisito para integrar fontes heterogêneas sem perder significado
clínico. 

Na prática, envolve padrões (ex.: HL7 FHIR), modelos de dados, dicionário institucional 
e terminologias (CID-10, LOINC, SNOMED CT quando aplicável), além de políticas de
versionamento e auditoria.

# 2.4 Governança de dados e conformidade (LGPD)
Em saúde, governança de dados é inseparável de privacidade e segurança. 
A LGPD (Lei nº 13.709/2018) impõe princípios como finalidade, necessidade e segurança, 
além de requisitos de controle de acesso, rastreabilidade e gestão de incidentes. 
    
Projetos de Big Data devem prever base legal, minimização de dados, anonimização/
pseudonimização quando cabível e mecanismos de auditoria.
3 respostas

3. Fontes e ecossistema de dados em saúde no Brasil

O cenário brasileiro combina bases públicas robustas do SUS com fontes privadas
(hospitais, operadoras, laboratórios) e dados gerados por dispositivos conectados. 

A qualidade e a interoperabilidade variam por região e instituição, o que reforça a necessidade 
de padronização.

# 3.1 Bases públicas e sistemas do SUS (visão prática)
•	DATASUS: repositório e serviços de dados do SUS (internações, procedimentos, mortalidade, 
nascidos vivos, imunizações etc.).
•	Sistemas de informação em saúde (exemplos): SIH/SUS, SIA/SUS, SIM, SINASC, SINAN e PNI
(dependendo do recorte do projeto).
•	RNDS (Rede Nacional de Dados em Saúde): integração e compartilhamento de dados para
continuidade do cuidado.
•	e-SUS APS e sistemas locais de Prontuário Eletrônico do Paciente (PEP) e regulação.

# 3.2 Saúde suplementar e vigilâncias
•	ANS/TISS: padrão de troca de informação em saúde suplementar (faturamento, guias e
interoperabilidade administrativa).
•	Vigilância Sanitária e Tecnovigilância: bases e fluxos de notificação de eventos adversos e 
incidentes com produtos e tecnologias (ex.: Notivisa).
•	Laboratórios e imagem: laudos estruturados, DICOM e bancos de imagens para apoio 
diagnóstico.

# 3.3 Dispositivos conectados e IoMT (Internet of Medical Things)
Wearables e dispositivos médicos conectados produzem séries temporais (sinais vitais, 
atividade, sono, glicemia etc.) com alta granularidade. 

Isso amplia a capacidade de monitoramento remoto e de predição de deterioração clínica, 
mas aumenta o risco de ruído, vieses e exposição de dados se não houver governança e 
segurança.

4 Complexidade dos Dados na Saúde

A complexidade do domínio da Saúde começa pela diversidade e multiplicidade de stakeholders 
e cenários envolvidos na prestação de cuidados. 

Consideremos a complexidade apresentada nos itens 1 e 2, associada a um cenário no qual as informações 
de prontuário de um único paciente são, em média, 80MB em um ano.

# 4.1 Motivos que tornam Complexos os dados em Saúde
•	Domínio multifacetado:
Múltiplos stakeholders (médicos, enfermeiros, laboratórios, gestores, pacientes) e cenários clínicos 
geram requisitos variados e frequentemente conflitantes.

•	Riqueza semântica:
Terminologias como SNOMED CT reúnem centenas de milhares de conceitos e milhões de relações
semânticas, exigindo modelagem e governança sofisticadas.

•	Granularidade das medições:
Sinais vitais simples podem ter dezenas de atributos; por exemplo, uma representação completa de pressão 
arterial (PA) podeconter até 36 atributos.

•	Volume e fragmentação:
Prontuários eletrônicos acumulam grandes volumes por paciente e os dados costumam estar fragmentados 
entre instituições.

# 4.2 Exemplos
•	SNOMED CT:
Terminologia extensa que exige mapeamentos e manutenção contínua para interoperabilidade.

•	Pressão arterial vs. Conta bancária:
Como dito, enquanto uma conta bancária pode ser descrita com ~12 atributos, uma medida clínica como 
PA pode exigir até 36 atributos, mostrando a maior complexidade estrutural dos dados clínicos.

•	Prontuário Eletrônico:
Média de 80 MB por paciente/ano apenas em prontuário, o que impacta armazenamento e processamento 
em larga escala.

# 4.3 Impactos no desenvolvimento de produtos digitais
1. Qualidade das soluções:
Equipes sem conhecimento em Saúde tendem a criar abstrações inadequadas, comprometendo usabilidade
clínica e aderência ao raciocínio médico.

2. Padronização e interoperabilidade:
A complexidade e a fragmentação aumentam o esforço para padronizar dados entre fontes distintas, dificultando 
análises e aplicações de IA.

3. Custo e arquitetura de armazenamento:
Volumes elevados (prontuários, imagens, exames) elevam custos em nuvem e exigem estratégias de retenção e 
compressão.

# 4.4 Recomendações práticas para mitigar impactos
•	Capacitação e time interdisciplinar:
Incluir profissionais de Saúde e especialistas em Saúde Digital nas equipes de produto.
•	Modelagem e padrões — adotar terminologias e padrões reconhecidos (por exemplo, SNOMED CT, openEHR,
FHIR) para representação e interoperabilidade.

•	Governança de dados:
Políticas claras de qualidade, mapeamento semântico e pipelines de normalização para reduzir fragmentação.

•	Otimização de armazenamento:
Compressão e políticas de retenção para dados binários; arquitetura que separa dados transacionais de dados 
analíticos.

•	Design centrado no usuário clínico
Validar fluxos com profissionais de saúde para garantir compatibilidade com o raciocínio clínico.

# 4.5. Arquitetura e pipeline operacional
Um pipeline de referência que organiza o caminho “fonte -> governança -> análise -> decisão”. 
    
O ponto crítico é que governança e proteção não são etapas finais: elas atravessam todo o ciclo.

5. Aplicações clínicas e organizacionais

5.1 Assistência clínica (diagnóstico, prognóstico e personalização)
•	Diagnóstico assistido por IA: apoio à leitura de imagem, triagem e priorização de casos.

•	Modelos preditivos: risco de sepse, reinternação, deterioração clínica e eventos adversos.

•	Estratificação e personalização: planos de cuidado baseados em histórico, perfil de risco e resposta
terapêutica.

# 5.2 Gestão hospitalar e eficiência operacional
•	Gestão de leitos e fluxo: previsão de demanda e tempo de permanência.

•	Otimização de filas e recursos: escalas, insumos, centro cirúrgico, laboratório e radiologia.

•	Detecção de anomalias: padrões atípicos em faturamento/procedimentos e possíveis inconsistências 
assistenciais.

# 5.3 Saúde pública e vigilâncias
•	Epidemiologia preditiva: identificação precoce de surtos e priorização de ações.

•	Planejamento de campanhas: previsão de demanda e cobertura vacinal.

•	Tecnovigilância orientada por dados: monitorar sinais de risco de dispositivos e tecnologias 
em uso real.

6. Riscos, limites e desafios no contexto brasileiro

Os ganhos de Big Data dependem de premissas técnicas e ético-legais. Sem isso, o risco é produzir
modelos aparentemente sofisticados, porém frágeis, enviesados ou juridicamente indefensáveis.

# 6.1 Privacidade, LGPD e reidentificação
•	Definir base legal e finalidade; aplicar minimização de dados.

•	Preferir anonimização/pseudonimização quando o caso permitir; avaliar risco de reidentificação.

•	Implementar controles de acesso (mínimo privilégio), trilhas de auditoria e gestão de incidentes.

# 6.2 Qualidade, vieses e representatividade
•	Dados faltantes, codificação heterogênea e registros livres podem distorcer análises.

•	Vieses (seleção, mensuração, confusão) devem ser explicitados e mitigados.

•	Validação externa e monitoramento pós-implantação são mandatórios para uso clínico.

# 6.3 Interoperabilidade e fragmentação de sistemas
•	Sistemas legados e formatos não padronizados dificultam integração.

•	Mapeamento semântico (terminologias) é tão importante quanto integração técnica.

•	Sem dicionário e governança de versões, surgem inconsistências silenciosas.

# 6.4 Segurança da informação
•	Ambientes de saúde são alvos frequentes de ransomware; é preciso plano de continuidade 
e backup.

•	Segurança por camadas: criptografia, segmentação, monitoramento e resposta a incidentes.

•	Modelos e pipelines também exigem proteção (ex.: vazamento de dados via logs e artefatos).

7. Roteiro de implantação em serviços de saúde

A seguir, um checklist mínimo (MVP) para iniciar Big Data com foco em valor clínico e segurança.

# 7.1 Checklist (MVP)
1. Definir problema clínico/operacional e métricas de sucesso (desfecho, tempo, custo, segurança).

2. Inventariar fontes e construir dicionário de dados (campos, tipos, terminologias, qualidade).

3. Definir governança: papéis, acesso, trilhas de auditoria, política de retenção e descarte.

4. Garantir conformidade LGPD: base legal, DPIA quando aplicável, minimização e segurança.

5. Projetar pipeline (ETL/ELT) com validações automatizadas e versionamento.

6. Implementar camada analítica (BI/ML) com validação e monitoramento pós-implantação.

7. Documentar e treinar equipes: clínica, TI e gestão, com processos de revisão humana.

8. Tendências 2025-2026 e alinhamento com o PBIA 2025

- 	Tendências técnicas relevantes incluem: 
•	aprendizado federado (dados distribuídos), 

•	dados sintéticos para testes, 

•	RAG/LLMs com salvaguardas para apoio à decisão, observabilidade de modelos (drift),  adoção
crescente de padrões de interoperabilidade (FHIR). 
    
No plano institucional, Big Data é base para executar IA com soberania de dados, melhoria do serviço 
público e regulação responsável — direções coerentes com o Plano Brasileiro de IA (PBIA 2025).

•	Gêmeos digitais (digital twins): simulação de trajetórias clínicas e intervenções (ainda em 
maturação).

•	Edge AI em dispositivos: inferência próxima ao paciente (latência menor, privacidade maior).

•	Auditoria automatizada e detecção de anomalias: governança contínua e prevenção de riscos.

9. Exemplos de modelagem e código

9.1 Pseudocódigo – verificação de qualidade e rastreabilidade

Entrada: dataset_clinico
Saída: dataset_validado, relatorio_qualidade, trilha_auditoria

1. Carregar dataset_clinico
2. Para cada campo crítico (idade, sexo, diagnóstico, data_evento):
      - checar tipo e domínio permitido
      - checar valores ausentes e outliers
3. Gerar "score_qualidade" por registro e por variável
4. Se score_qualidade < limiar:
      - encaminhar para fila de revisão (humana) e registrar motivo
5. Aplicar pseudonimização do identificador (quando aplicável)
6. Registrar trilha_auditoria (timestamp, origem, versão, transformações)
7. Exportar dataset_validado + relatorio_qualidade

9.2 JSON – esquema mínimo de um evento clínico (dados sintéticos)


{
  "event_id": "evt_2026_000001",
  "patient_pseudo_id": "ps_8f3c1a2d",
  "facility_id": "HJXXIII",
  "timestamp": "2026-02-27T14:35:00-03:00",
  "event_type": "triagem",
  "vitals": {
    "heart_rate_bpm": 118,
    "resp_rate_ipm": 26,
    "spo2_pct": 92,
    "temp_c": 38.4
  },
  "context": {
    "sus_unit": true,
    "sus_regulation": "prioridade_amarela",
    "diagnosis_suspected_cid10": "A41.9"
  },
  "governance": {
    "data_version": "v1.0",
    "source_system": "PEP",
    "consent_basis": "legal_basis_health",
    "audit": {
      "ingested_at": "2026-02-27T14:40:00-03:00",
      "etl_job": "etl_triagem_v3",
      "hash": "sha256:..."
    }
  }
}

9.3 Python – exemplo didático (sem dados reais)

import pandas as pd

# Dataset sintético (exemplo)
df = pd.DataFrame({
    "heart_rate_bpm": [78, 118, 95, 140],
    "resp_rate_ipm": [16, 26, 20, 32],
    "spo2_pct": [98, 92, 95, 88],
    "temp_c": [36.7, 38.4, 37.8, 39.2]
})

# Regra simples de alerta (didática; não substitui validação clínica)
df["risk_flag"] = (
    (df["heart_rate_bpm"] >= 120) |
    (df["resp_rate_ipm"] >= 30) |
    (df["spo2_pct"] <= 90) |
    (df["temp_c"] >= 39.0)
)

print(df)

10 Considerações Finais

Big Data em saúde descreve o conjunto de práticas e tecnologias que permitem coletar, integrar, proteger e 
analisar grandes volumes de dados clínicos e operacionais (prontuários, exames, dispositivos conectados,
bases públicas), convertendo-os em informação útil para decisões assistenciais, gerenciais e de saúde pública. 

Quando bem governado, o Big Data viabiliza medicina mais preditiva e preventiva, melhora a segurança do paciente, 
reduz desperdícios e cria base concreta para IA (Machine Learning, Deep Learning e NLP) com rastreabilidade e 
controle de risco. 
    
No Brasil, o potencial é especialmente relevante no SUS, que dispõe de bases históricas amplas; o desafio central 
é combinar qualidade, interoperabilidade e conformidade com LGPD, de modo a garantir valor clínico sem comprometer
privacidade.

A complexidade dos dados em Saúde exige que times de produto combinem conhecimento clínico, padrões técnicos e 
decisões arquiteturais orientadas por governança. Investir em pessoas, padrões e arquitetura reduz riscos, melhora a 
qualidade das soluções e controla custos operacionais.

11. Referências bibliográficas

•	Lei nº 13.709/2018 (LGPD) – Lei Geral de Proteção de Dados Pessoais.
•	DATASUS – Departamento de Informática do SUS (Ministério da Saúde).
•	RNDS – Rede Nacional de Dados em Saúde (Ministério da Saúde).
•	ANS – Padrão TISS (Troca de Informação em Saúde Suplementar).
•	ANVISA – Notivisa (notificações e vigilâncias relacionadas a produtos e tecnologias em saúde).
•	PBIA 2025 – Plano Brasileiro de Inteligência Artificial (MCTI/CGEE).
•	SNOMED International. SNOMED CT Starter Guide/ SNOMED CT Basics. URL: https://confluence.ihtsdotools.org/display/docstart/4.+snomed+ct+basics
•	OpenEHR. OpenEHR Clinical Knowledge Manager. URL: https://ckm.openehr.org/ckm/archetypes/1013.1.3574/mindmap
•	CMS.gov. Code Systems, Vocabularies, and Terminologies / SNOMED CT. URL: http://mmshub.cms.gov/measure-lifecycle/measure-specification/specify-code/SNOMED-CT
•	Suter-Crazzolara C (2018) Better Patient Outcomes Through Mining of Biomedical Big Data. Front. ICT 5:30. doi: 10.3389/fict.2018.00030