1
resposta

Melhores praticas no Glue

Boa tarde,

Estou com algumas duvidas sobre as melhores praticas no Glue.

1 - Falando de bibliotecas, o que costuma ser melhor pensando em performance, utilizar bibliotecas nativas do Glue ou utilizar bibliotecas do spark?

2 - Falando em carregar dados, o que é melhor buscar, dados direto do Data Catalog ou do Glue?

3 - Desenvolver processo por ETL/Notebook/Script?

Estou em um Cenário onde Utilizo:

RDS(Mysql) -> DMS -> S3(Bronze) - > S3(Silver) - > S3(Gold)

Nesse cenário tem duplicidade de dados devido ao uso do DMD com dados de CDC.

1 resposta

Oii, Luana, tudo bem?

Vamos lá!

Sobre as bibliotecas: as bibliotecas nativas do Glue são otimizadas para o ambiente Glue. Isso pode resultar em melhor desempenho e menor tempo de execução. Já as do Spark são mais utilizadas em geral e possuem uma vasta comunidade de suporte. Se o seu trabalho envolve transformações complexas ou específicas, as bibliotecas do Spark podem ter mais flexibilidade.

Sobre o Carregamento de Dados: quando você busca dados diretamente do Data Catalog, você utiliza uma camada de abstração que pode simplificar o acesso e a gestão dos dados. Porém, acessar os dados pelo Glue pode ser mais eficiente em termos de performance.

Desenvolvimento de Processos: cada abordagem tem suas vantagens. - Visual ETL: Ideal para quem prefere uma interface gráfica e arrastar e soltar componentes. É excelente para tarefas de ETL padrão e para quem está começando. - Notebook: Muito útil para cientistas de dados que preferem uma abordagem interativa e iterativa. - Script: Oferece a maior flexibilidade e controle, permitindo escrever código em Python ou Scala.

No seu cenário, o Visual ETL pode ser uma boa escolha para começar, pois facilita a visualização e a manipulação das diferentes camadas de dados.

Sobre a duplicidade de dados devido ao uso do DMS com dados de CDC, uma prática comum é utilizar chaves primárias ou campos de timestamp para identificar e remover duplicatas durante o processo de ETL. Você pode implementar isso no Glue usando transformações específicas para deduplicação.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.