1
resposta

[Dúvida] Delta Lake Serve como Banco de dados primário?

Estou trabalhando em um cenário onde recebo informações através de uma fila, que são posteriormente gravadas em um MongoDB. O MongoDB serve como base de consulta para montar o meu Delta Lake. No entanto, estou considerando a possibilidade de remover o MongoDB e persistir esses dados diretamente na minha tabela Delta.

Meu receio é que, pelo que sei, o Delta Lake é tradicionalmente usado para armazenar dados em contextos de data science. Nunca vi o Delta Lake sendo usado no contexto que estou propondo.

Quais os riscos de uma implementação desse tipo?

1 resposta

Oi Thallys, tudo bem?

Remover o MongoDB e gravar os dados diretamente no Delta Lake pode ser uma opção, mas devemos considerar alguns pontos. O Delta Lake oferece transações seguras e histórico de dados, mas geralmente é usado em processos em lote, com intervalos maiores de gravação, enquanto o MongoDB é otimizado para receber e consultar dados em tempo real.

Por isso, gravar dados com muita frequência no Delta Lake pode gerar latência e aumentar os custos de infraestrutura, principalmente se o volume for alto. Uma solução pode ser agrupar as mensagens em pequenos lotes antes de gravá-las no Delta Lake, para reduzir o impacto nas operações. Além disso, o MongoDB funciona bem como um intermediário para filtrar e organizar os dados antes de enviá-los ao Delta, o que agrega flexibilidade.

Se a ideia é simplificar o processo e reduzir custos, vale a pena testar o Delta Lake sozinho, mas monitorando o desempenho para ver se ele suporta bem o volume e a frequência das mensagens.

Espero ter ajudado.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado