Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Qual a melhor forma para transformar os dados json

Boa tarde, tenho um cenário aqui que estou tentando fazer.

Atualmente tenho eventos do Kafka que estão sendo salvos em um bucket s3 que seria a pasta "bronze". Eu estava tentando tranformar esses dados dentro do glue script com python mas da muito problema. O melhor cenário para isso seria fazer realmente por dentro do glue ou ter uma lambda ou step functions que recebe um bucket notification, realiza o refinamento e adequação desses dados e salva em parquet ou melhor seria dentro do glue realmente com um schedule e depois o crawler para catálogar?

Obrigado.

1 resposta
solução!

Oii, Andrei.

Existem algumas opções:

AWS Glue: Usar o Glue para transformar os dados é uma escolha comum, se você já tá familiarizado com ele. O Glue é projetado pra lidar com grandes volumes de dados e pode ser agendado para rodar em horários específicos. E, ele se integra bem com o Glue Crawler para catalogar os dados transformados. Se você tá enfrentando problemas com o script Python, pode ser bom revisar os logs de execução pra identificar onde estão ocorrendo os erros ou considerar dividir o script em etapas menores para facilitar o diagnóstico.

AWS Lambda com Step Functions: Essa abordagem pode ser mais flexível, principalmente se você precisa de processamento em tempo real ou quase em tempo real. Com uma Lambda, você pode configurar notificações de eventos do S3 para disparar automaticamente o processamento assim que novos dados são salvos. As Step Functions podem orquestrar o fluxo de trabalho, garantindo que cada etapa do processamento seja executada corretamente. Essa abordagem costuma ser mais adequada pra cargas de trabalho menores ou quando a latência é um fator crítico.

Conversão para parquet: Independentemente da abordagem que você escolher, converter seus dados para o formato Parquet pode ser vantajoso. O Parquet é um formato de armazenamento colunar que é otimizado para consultas analíticas e pode reduzir significativamente o custo de armazenamento e melhorar o desempenho das consultas.

Se você tá buscando uma solução mais automatizada e integrada, o AWS Glue pode ser a melhor opção.Mas, se você precisa de mais controle sobre o processo ou deseja processar dados em tempo real, a combinação de Lambda e Step Functions pode ser mais adequada.

Espero ter ajudado.

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!