1
resposta

[Dúvida] Construção de pipeline de ML

Boa tarde comunidade,

Eu gostei muito do conteúdo do curso e entendo que o seu foco está no deploy de modelo, mas senti falta de mais informação sobre o que fazer na fase de tratamentos (nulos, scalers, feat eng) antes da ingestão no modelo. Acredito que a AWS deva ter alguma ferramenta específica para essa etapa. Mas não sei bem qual seria essa ferramenta.

Atualmente na empresa que trabalho utilizamos uma máquina virtual (AWS AC2 - instance notebook) tanto como sandbox quanto para a utilização de modelos em produção. Este modelo em produção temos os reads das bases de input e os tratamentos dos dados antes da ingestão nos modelos. Entendo que poderíamos utilizar a API do modelo em deploy, porém ainda assim ficaríamos dependentes de fazer os tratamentos na máquina virtual.

Obrigado!

1 resposta

Oii, Renan! Tudo bem?

Desculpa pela demora em responder a você.

Boa pergunta! A AWS possui algumas ferramentas que podem ser usadas nesse contexto, como, por exemplo:

  • O AWS Glue, é um serviço que ajuda a organizar dados para análise. Ele pega informações de um lugar, ajusta para se encaixarem em outro formato, e então as coloca onde voce deseja.

  • O AWS Data Pipeline, é um serviço de orquestração de web usado para automatizar o movimento e a transformação de dados entre diferentes serviços da AWS e em servidores locais.

  • E o SageMaker, que oferece opções para o pré-processamento de dados.

Disponibilizei a documentação oficial de cada ferramenta, basta clicar no nome de cada uma. Dê uma explorada na documentação para escolher qual ferramenta será adequada para o seu projeto em sua totalidade.

As páginas podem abrir no Inglês, caso não se sinta confortável com o idioma, basta clicar com o botão direito do mouse e escolher a opção "Traduzir para o português".

Espero ter ajudado com as dicas! Continue se dedicando aos estudos e qualquer dúvida, compartilhe no fórum.

Bons estudos, Renan!