1
resposta

[Dúvida] Utilidade do Airflow

Cheguei até agora no curso, mas não entendi duas coisas. Porque que eu devo criar um job o databricks se basicamente quem vai fazer o código rodar na data correta e da maneir correta é o airflow? E porque eu devo utilizar o airflow, se eu poderia fazer uma função para pegar todos os dias entre um intervalo entre datas no proprio databricks e fazer as consultas. Qual a vantagem do airflow nesse caso?

1 resposta

Olá, Leonardo! Tudo bem?

O Airflow é uma ferramenta que organiza a execução das tarefas em uma sequência planejada, garantindo que tudo ocorra na ordem certa e na hora certa, mas ele não processa os dados diretamente. Já o Databricks é a plataforma que faz o processamento em si, executando o código. Então, quando criamos um job no Databricks, definimos o que será executado, enquanto o Airflow cuida para que essa execução siga o agendamento e as dependências que definimos.

Quanto a sua segunda dúvida, apesar de ser possível criar scripts no Databricks para executar tarefas com intervalos de tempo, o Airflow oferece recursos extras. Ele permite monitorar o pipeline, gerar alertas automáticos em caso de falhas, reexecutar tarefas específicas e se integrar facilmente a várias fontes e destinos de dados. Esses recursos são importantes para garantir que o pipeline seja confiável e fácil de escalar.

Espero ter esclarecido.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado