[Dúvida] Criar crawler para múltiplas tabelas | AWS Data Lake: processando dados com AWS Glue

Ei, Leandro! Tudo bem?

Uma sugestão é testar alguns passos, como:

Configurar o Crawler para Múltiplas Fontes: ao criar ou editar um crawler no AWS Glue, você pode adicionar múltiplas fontes de dados. Isso pode incluir diferentes diretórios dentro do seu bucket do S3, onde cada diretório pode representar uma tabela diferente.
Definir a Origem de Dados: veja se a origem dos dados está bem organizada. Por exemplo, cada tabela em um diretório separado dentro do seu bucket S3. Isso ajuda o crawler a identificar e criar tabelas separadas para cada conjunto de dados.
Especificar o Database de Destino: durante a configuração do crawler, você pode especificar um único database de destino onde todas as tabelas detectadas serão criadas. Se você tiver dados de múltiplos databases, pode configurar diferentes crawlers para cada conjunto de dados.
Agendar Crawlers: Você pode agendar o crawler para rodar em intervalos regulares, garantindo que novas tabelas sejam detectadas e criadas automaticamente conforme novos dados são adicionados.
Verificar e Ajustar Schemas: após a execução do crawler, é sempre uma boa prática verificar se os schemas foram detectados corretamente e ajustá-los conforme necessário.

Com essas configurações, o AWS Glue deve ser capaz de criar múltiplas tabelas simultaneamente, respeitando os schemas individuais de cada conjunto de dados.

Conteúdos relacionados

Estes conteúdos podem abrir em inglês e se preferir ler em português, recomendo que utilize o tradutor automático do navegador.

Até mais, Leandro!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!