Oii, Luana, tudo bem?
Vamos lá!
Sobre as bibliotecas: as bibliotecas nativas do Glue são otimizadas para o ambiente Glue. Isso pode resultar em melhor desempenho e menor tempo de execução. Já as do Spark são mais utilizadas em geral e possuem uma vasta comunidade de suporte. Se o seu trabalho envolve transformações complexas ou específicas, as bibliotecas do Spark podem ter mais flexibilidade.
Sobre o Carregamento de Dados: quando você busca dados diretamente do Data Catalog, você utiliza uma camada de abstração que pode simplificar o acesso e a gestão dos dados. Porém, acessar os dados pelo Glue pode ser mais eficiente em termos de performance.
Desenvolvimento de Processos: cada abordagem tem suas vantagens.
- Visual ETL: Ideal para quem prefere uma interface gráfica e arrastar e soltar componentes. É excelente para tarefas de ETL padrão e para quem está começando.
- Notebook: Muito útil para cientistas de dados que preferem uma abordagem interativa e iterativa.
- Script: Oferece a maior flexibilidade e controle, permitindo escrever código em Python ou Scala.
No seu cenário, o Visual ETL pode ser uma boa escolha para começar, pois facilita a visualização e a manipulação das diferentes camadas de dados.
Sobre a duplicidade de dados devido ao uso do DMS com dados de CDC, uma prática comum é utilizar chaves primárias ou campos de timestamp para identificar e remover duplicatas durante o processo de ETL. Você pode implementar isso no Glue usando transformações específicas para deduplicação.
Abraços!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.