1
resposta

[Dúvida] Tratamento de dados e feature engineering

ola comunidade!

gostei muuti do conteudo e entendo que o foco seja no deploy de modelo dentro da infra estutrutura Aws. porem senti falta de uma explicacao dos SDKs recomendados para as outras etapas de um projeto ML, como o tratamenti e feature enfineering dos dados de entrada do modelo (nao estou falando sobre treino, mas sim das pistas de entrada de dados out-of-time).

bom, gostaria de saber quais sao as ferramentas mais adequadas para fazer os tratamentos dos dados antes da inferencia.

para explixar melhor vou exemplificad com a dificuldade que estou enfrentando na empresa a qual trabalho. atualmente utilizamos uma instacia ec2 do sagemaker como sandbox e para rodadas de modelos em producao. Entendo que essa pratica pode ser muito custosa, mas por outro lado nos da liberdade para fazer todo o pipeline por la (import dados via s3, enriquecimentos de dados (merges), tratamentos, feat eng, rodada modelo e export S3.

Gostaira de saber qual seria a ferramenta aws mais apropriada para ler os arquivos do s3, trata-los e reinseri-los no s3. Para posterior uso no modelo.

obrigado!

1 resposta

Olá, Renan!

Peço desculpas pela demora em obter um retorno

Existem algumas ferramentas da AWS que podem ajudar no tratamento de dados antes da inferência. Algumas delas são:

AWS Glue: Um serviço gerenciado para ETL (Extract, Transform, Load) que extrai dados do Amazon S3, aplica transformações e armazena os resultados novamente no S3 ou em outros destinos.

AWS Lambda: Funções Lambda permitem criar código sob demanda para ler dados do S3, aplicar tratamentos e salvar os resultados de volta no S3.

AWS Step Functions: Orquestra etapas de preparação de dados, coordenando funções Lambda e outros serviços da AWS em fluxos de trabalho.

Amazon EMR: Para grandes volumes de dados, o EMR suporta processamento distribuído com Apache Spark ou Hadoop e armazenamento dos resultados no S3.

AWS Data Pipeline: Permite criar pipelines agendados para copiar, transformar e carregar dados de/para o S3.

Amazon Kinesis: Para dados de streaming, o Kinesis permite ingestão e processamento em tempo real, com saída para o S3.

Escolha a ferramenta com base na complexidade das transformações, volume de dados e preferências de gerenciamento, considerando também os custos associados. Cada ferramenta tem seu uso ideal, garantindo que seu pipeline de dados seja eficiente e atenda às necessidades do seu projeto de Machine Learning.

Bons estudos!

Sucesso

Um grande abraço e até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!