1
resposta

Tratamentos e volumes de dados

Estou com uma dúvida referente aos tratamentos. Pelo que eu entendi o tratamento está sendo feito dentro do airflow, desse modo poderia acarretar em problemas de recursos por parte do airflow? Poderia haver algum problema de estouro de memória? Caso isso possa ocorrer, como seria a solução? Criar um outro docker somente do spark e fazer o airflow chamar ele? Como seria esse processo?

1 resposta

Oi Jean, tudo bem?

Sim, você está certo em ponderar sobre o potencial problema de sobrecarga no Airflow. Se você estiver fazendo transformações complexas e lidando com grandes conjuntos de dado, de fato isso pode levar ao consumo excessivo de recursos, como CPU e memória, impactando a execução de outras tasks e até mesmo causando falhas.

Uma solução comum é usar o Airflow para orquestrar o processamento de dados em ferramentas projetadas para isso, como o Apache Spark. Nesse caso, você pode configurar um cluster Spark separado, possivelmente em um contêiner Docker, e usar o Airflow para iniciar os trabalhos Spark.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Conteúdos relacionados
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!