1
resposta

[Dúvida] Criar crawler para múltiplas tabelas

No exemplo do curso é criado um crawler para o conceito de camada bronze, mas com o intuito de criar apenas uma tabela. Esse cenário é bem distante da prática do dia a dia.

Entendendo que é algo extremamente comum que na minha camada bronze eu possua várias tabelas (com seus respectivos schemas), inclusive de databases diferentes, a aws tem alguma forma de configuração para que meu crawler crie várias tabelas simultaneamente, entendendo bem os schemas individuais de cada uma?

1 resposta

Ei, Leandro! Tudo bem?

Uma sugestão é testar alguns passos, como:

  1. Configurar o Crawler para Múltiplas Fontes: ao criar ou editar um crawler no AWS Glue, você pode adicionar múltiplas fontes de dados. Isso pode incluir diferentes diretórios dentro do seu bucket do S3, onde cada diretório pode representar uma tabela diferente.

  2. Definir a Origem de Dados: veja se a origem dos dados está bem organizada. Por exemplo, cada tabela em um diretório separado dentro do seu bucket S3. Isso ajuda o crawler a identificar e criar tabelas separadas para cada conjunto de dados.

  3. Especificar o Database de Destino: durante a configuração do crawler, você pode especificar um único database de destino onde todas as tabelas detectadas serão criadas. Se você tiver dados de múltiplos databases, pode configurar diferentes crawlers para cada conjunto de dados.

  4. Agendar Crawlers: Você pode agendar o crawler para rodar em intervalos regulares, garantindo que novas tabelas sejam detectadas e criadas automaticamente conforme novos dados são adicionados.

  5. Verificar e Ajustar Schemas: após a execução do crawler, é sempre uma boa prática verificar se os schemas foram detectados corretamente e ajustá-los conforme necessário.

Com essas configurações, o AWS Glue deve ser capaz de criar múltiplas tabelas simultaneamente, respeitando os schemas individuais de cada conjunto de dados.

Estes conteúdos podem abrir em inglês e se preferir ler em português, recomendo que utilize o tradutor automático do navegador.

Até mais, Leandro!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!