Referente ao curso Engenharia de dados: conhecendo Apache Airflow, no capítulo Spark: Exportando os dados transformados para o Data Lake e atividade Segundo estágio do Data Lake
Ao realizar o groupby por created_at, está buscando a data do arquivo e não o campo de data do dataframe. Então ele não faz a partição pelas data dos dados, pois considera apenas uma data só. Sabem o que pode ser?
Novo Plano Ultra Lab
O único plano que combina conhecimento tech com orientação especializada para sua carreira
De R$249/mês por
R$ 229/mês
Economize R$ 239