Oi Jean, tudo bem?
Sim, você está certo em ponderar sobre o potencial problema de sobrecarga no Airflow. Se você estiver fazendo transformações complexas e lidando com grandes conjuntos de dado, de fato isso pode levar ao consumo excessivo de recursos, como CPU e memória, impactando a execução de outras tasks e até mesmo causando falhas.
Uma solução comum é usar o Airflow para orquestrar o processamento de dados em ferramentas projetadas para isso, como o Apache Spark. Nesse caso, você pode configurar um cluster Spark separado, possivelmente em um contêiner Docker, e usar o Airflow para iniciar os trabalhos Spark.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!