Olá Douglas, tudo bem?
Agradeço por compartilhar seu código com a comunidade Alura.
Achei interessante que você trouxe a ideia de reduzir as partições usando coalesce(1)
, isso realmente ajuda quando queremos gerar apenas um único arquivo CSV a partir de um DataFrame Spark.
Compartilho também o método repartition()
quando precisar aumentar o número de partições de forma dinâmica, por exemplo:
df_repart = df.repartition(3)
df_repart.write.csv("novo_caminho_output")
Esse código cria 3 partições do DataFrame e salva em múltiplos arquivos CSV. Útil quando o volume de dados aumenta e queremos paralelizar melhor a escrita.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!