Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

Referente ao curso Pandas I/O: trabalhando com diferentes formatos de arquivos

por Ricardo Costa Val Do Rosario

| 412.5k xp | 805 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Formatos de Dados e Bancos de Dados em Deep Learning para Dispositivos Médicos Inteligentes

Por Ricardo Costa Val do Rosário

Introdução

1. À medida que a Medicina Moderna incorpora algoritmos de Deep Learning em wearables, sistemas de imagem, 
monitores multiparamétricos e plataformas de apoio à decisão clínica, cresce a demanda por estruturas robustas 
de dados. 

2. Por serem dados não genéricos, mas sim dados médicos se caracterizam por
- Possuem padrões regulatórios, 
- Exigem interoperabilidade, versionamento, segurança e integridade.

3. Neste artigo, discuto os principais formatos e bancos de dados utilizados em IA Médica, com foco em:
- Casos reais de uso, 
- Boas práticas,
- Exemplos em Python, que ajudam a transformar dados brutos em insights clínicos validados.

Principais Formatos de Dados na Medicina com IA

1. DICOM – Padrão para imagens (TC, RM, RX). Embute metadados clínicos e técnicos.
2. NIfTI (.nii) – Usado em neuroimagem funcional e estruturas 3D/4D.
3. HDF5 (.h5) – Armazena múltiplas modalidades (imagem, máscara, metadados) com alta eficiência.
4. TFRecord – Ideal para pipelines de treinamento em TensorFlow.
5. WFDB – Formato padrão para sinais fisiológicos (ECG, EEG).
6. LMDB – Rápido acesso a imagens e tensores em pipelines de Deep Learning.
7. JSON / CSV – Estrutura leve e flexível para logs, sensores e metainformações clínicas.

Bancos de Dados Relevantes na Assistência Médica Inteligente

**Tipo de Banco |	Exemplos| Aplicações Médicas**

PACS DICOM |	Orthanc, dcm4chee	| Armazenamento de exames e diagnósticos por imagem

Relacional (SQL) |	PostgreSQL, MySQL	| Prontuários, tabelas de pacientes e auditorias

NoSQLv Documental |	MongoDB |	Inferência de modelos, relatórios estruturados

Time Series |	InfluxDB, TimescaleDB |	Dados de sensores em tempo real (ex: SpO₂, PA)

Chave-Valor |	LMDB, LevelDB |	Datasets de imagens treinados via PyTorch

Data Lake	| AWS S3, Azure Blob	| Arquivamento multimodal com versionamento

Exemplos Reais com Python

1. Leitura de Imagem DICOM com Pydicom

import pydicom
ds = pydicom.dcmread("raiox_torax.dcm")
print(ds.PatientID, ds.StudyDescription)

2. Leitura de ECG via WFDB

import wfdb
record = wfdb.rdrecord('mitdb/100', sampto=1000)
wfdb.plot_wfdb(record=record, title='ECG Lead II')

3. Armazenar imagens HDF5 com chunking

import h5py, numpy as np
with h5py.File("imagens.h5", "w") as f:
    f.create_dataset("dados", data=np.random.rand(100, 256, 256), chunks=True)

4. Leitura LMDB com PyTorch

import lmdb, pickle
env = lmdb.open("banco_imagens", readonly=True)
with env.begin() as txn:
    dado = txn.get(b"chave123")
    imagem = pickle.loads(dado)

Boas Práticas em Governança de Dados Médicos com IA

1. Data Versioning com DVC:
Garante reprodutibilidade e rastreabilidade regulatória.

2. Segmentação e Particionamento:
Melhora a performance de consultas clínicas.

3. ETL para OMOP CDM ou FHIR:
Facilita integração com prontuários eletrônicos e auditoria.

4. Edge Computing:
Reduz latência no processamento local (ex: wearables).

5. Orquestração com Apache NiFi / Airflow:
Automatiza fluxos complexos de ingestão e transformação.

Conclusão

1. A excelência de um modelo de IA em Medicina começa pela engenharia de seus dados. 

2. Do diagnóstico por imagem ao monitoramento de sinais vitais, os formatos e bancos utilizados 
devem respeitar normas, garantir performance e se adaptar às rápidas mudanças da área da saúde. 

3. O profissional que domina essas tecnologias torna-se um elo essencial entre a inovação e a prática 
clínica responsável.

"Investir em capacitação para integrar IA de forma ética e segura é mais do que uma tendência, mas sim 
uma urgência para o futuro da Medicina."

2 respostas

por Daniel Nogueira

| 8452.9k xp | 7770 posts

Alura Scuba Team Professor Tutor @FIAP • Analista SE @Alura

28/07/2025

E aí, Ricardo! Tudo bem?

Parabéns! Mantenha o ritmo nos projetos e continue compartilhando na nossa comunidade.

Percebi que você abordou o uso de formatos de dados médicos, contextualizou muito bem o mapeamento entre formatos e bancos de dados para cenários reais da saúde e ainda falou da relevância de boas práticas em governança de dados para a segurança e escalabilidade em IA médica.

Uma sugestão para evoluir ainda mais é informar sobre o describe() do pandas. Que tem como objetivo explorar estatísticas descritivas rápidas de sinais ou metadados clínicos em CSV, como registros de sensores ou dados demográficos. Um exemplo:

import pandas as pd

url = "https://raw.githubusercontent.com/plotly/datasets/master/diabetes.csv"

df = pd.read_csv(url)

df.describe()

Resultado:

index	Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
count	768.0	768.0	768.0	768.0	768.0	768.0	768.0	768.0	768.0
mean	3.8450520833333335	120.89453125	69.10546875	20.536458333333332	79.79947916666667	31.992578124999998	0.47187630208333325	33.240885416666664	0.3489583333333333
std	3.3695780626988623	31.97261819513622	19.355807170644777	15.952217567727677	115.24400235133837	7.8841603203754405	0.33132859501277484	11.76023154067868	0.4769513772427971
min	0.0	0.0	0.0	0.0	0.0	0.0	0.078	21.0	0.0
25%	1.0	99.0	62.0	0.0	0.0	27.3	0.24375	24.0	0.0
50%	3.0	117.0	72.0	23.0	30.5	32.0	0.3725	29.0	0.0
75%	6.0	140.25	80.0	32.0	127.25	36.6	0.62625	41.0	1.0
max	17.0	199.0	122.0	99.0	846.0	67.1	2.42	81.0	1.0

Essa abordagem ajuda a identificar rapidamente valores extremos, tendências e padrões clínicos que podem influenciar a modelagem em IA.

Para saber mais:

Sugestão de conteúdo para você mergulhar ainda mais sobre o tema:

[Documentação] - pandas.DataFrame.describe

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

solução!

por Ricardo Costa Val Do Rosario

| 412.5k xp | 805 posts

MÉDICO Angiologista e Cirurgião Cardiovascular

28/07/2025

Caro Daniel, acatando sua sugestão:

Considerações sobre O Método Describe

Por Ricardo Costa Val do Rosário e Microsoft Copilot

Trata-se de:

O recurso do Pandas, apesar de ser considerado fácil de manusear, revela-se extremamente poderoso 
para a análise exploratória de dados médicos. Cada vez mais, tem sido descrito como um "raio-x estatístico" 
para dados numéricos.

Fornece, em segundos, as seguintes informações:

1.  Contagem (`count`) de valores não nulos
2.  Média(`mean`), desvio padrão (`std`)
3.  Mínimo e máximo
4. Quartis: 25%, 50% (mediana) e 75%

Em cenários clínicos, essa abordagem tem um valor enorme:

1. Detecta outliers: como um paciente com glicemia de 199 quando a média é 120

2. Identifica distribuições e variabilidade: por exemplo, se a pressão arterial está concentrada ou dispersa

3. Ajuda na escolha de pré-processamento: normalização, imputação de valores ausentes, etc.

4. Para projetos de IA médica, esses primeiros diagnósticos estatísticos são essenciais para garantir 
a qualidade dos dados antes do treinamento de modelos. 

5. Quando aplicado a sinais fisiológicos, como ECG ou saturação de oxigênio, pode revelar padrões clínicos 
importantes que merecem atenção especializada.

Abaixo está um exemplo de como o método pode ser aplicado antes e depois do pré-processamento de dados clínicos,
mostrando como pequenas transformações podem melhorar a qualidade dos dados para modelos de IA médica.

Exemplo: Análise de Dados de Diabetes

import pandas as pd
import numpy as np

# Carregando os dados brutos
url = "https://raw.githubusercontent.com/plotly/datasets/master/diabetes.csv"
df_raw = pd.read_csv(url)

# Estatísticas antes do pré-processamento
print( Estatísticas antes do pré-processamento:")
print(df_raw.describe())

# Pré-processamento: substituindo zeros por NaN em colunas clínicas onde zero não faz sentido
cols_to_clean = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
df_cleaned = df_raw.copy()
df_cleaned[cols_to_clean] = df_cleaned[cols_to_clean].replace(0, np.nan)

# Imputação simples: preenchendo NaNs com a mediana
for col in cols_to_clean:
    df_cleaned[col].fillna(df_cleaned[col].median(), inplace=True)

# Estatísticas após o pré-processamento
print("\ Estatísticas após o pré-processamento:")
print(df_cleaned.describe())

O que esse exemplo mostra?

1. Antes: o `describe()` revela valores mínimos como 0 para glicose, pressão arterial e insulina, 
o que é clinicamente improvável.

2. Depois: após imputação com a mediana, os dados ficam mais realistas e prontos para modelagem.

3. Esse tipo de análise é essencial para garantir que o modelo de IA não aprenda padrões errôneos ou enviesados.

Importante

[Projeto] Formatos de Dados e Bancos de Dados em Deep Learning para Dispositivos Médicos Inteligentes

Formatos de Dados e Bancos de Dados em Deep Learning para Dispositivos Médicos Inteligentes

Introdução

Principais Formatos de Dados na Medicina com IA

Bancos de Dados Relevantes na Assistência Médica Inteligente

Exemplos Reais com Python

1. Leitura de Imagem DICOM com Pydicom

2. Leitura de ECG via WFDB

3. Armazenar imagens HDF5 com chunking

4. Leitura LMDB com PyTorch

Boas Práticas em Governança de Dados Médicos com IA

Conclusão

Considerações sobre O Método Describe

Trata-se de:

Fornece, em segundos, as seguintes informações:

Em cenários clínicos, essa abordagem tem um valor enorme:

Exemplo: Análise de Dados de Diabetes

O que esse exemplo mostra?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Formatos de Dados e Bancos de Dados em Deep Learning para Dispositivos Médicos Inteligentes

Introdução

Principais Formatos de Dados na Medicina com IA

Bancos de Dados Relevantes na Assistência Médica Inteligente

Exemplos Reais com Python

1. Leitura de Imagem DICOM com Pydicom

2. Leitura de ECG via WFDB

3. Armazenar imagens HDF5 com chunking

4. Leitura LMDB com PyTorch

Boas Práticas em Governança de Dados Médicos com IA

Conclusão

Considerações sobre O Método Describe

Trata-se de:

Fornece, em segundos, as seguintes informações:

Em cenários clínicos, essa abordagem tem um valor enorme:

Exemplo: Análise de Dados de Diabetes

O que esse exemplo mostra?

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP