Olá, estou iniciando com airflow e treinando a criação de um etl. Estou com uma dúvida quanto a estrutura.
O mais performático e correto seria:
Caso 1: Criar o etl dentro da DAG, com métodos de extract, transform e load. Realizando essa extração, customização dos dados e ingestão em um DW. Criando as tasks para cada método e depois apenas executando as tasks.
Caso 2: Criar 3 arquivos independentes .py, que cada um faça sua tarefa, extract(armazenando na base de dados bronze), transform( buscando da bronze, customizando e ingerindo na base prata) e load( lendo da base prata e e ingerindo na ouro já os dados refinados prontos para serem consumidos). No airflow apenas criar as tasks e realizar a chamada para esses arquivos.