Olá, Leonardo! Tudo bem?
O Airflow é uma ferramenta que organiza a execução das tarefas em uma sequência planejada, garantindo que tudo ocorra na ordem certa e na hora certa, mas ele não processa os dados diretamente. Já o Databricks é a plataforma que faz o processamento em si, executando o código. Então, quando criamos um job no Databricks, definimos o que será executado, enquanto o Airflow cuida para que essa execução siga o agendamento e as dependências que definimos.
Quanto a sua segunda dúvida, apesar de ser possível criar scripts no Databricks para executar tarefas com intervalos de tempo, o Airflow oferece recursos extras. Ele permite monitorar o pipeline, gerar alertas automáticos em caso de falhas, reexecutar tarefas específicas e se integrar facilmente a várias fontes e destinos de dados. Esses recursos são importantes para garantir que o pipeline seja confiável e fácil de escalar.
Espero ter esclarecido.
Qualquer dúvida, não hesite em compartilhar no fórum.
Abraços!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado