1
resposta

[Sugestão] Reduzir as partições

Caso queiram diminuir os arquivos part-xxxxxx.csv podemos gerar apenas um único arquivo CSV, usando o coalesce(1)

df.coalesce(1).write.csv("file_output_path", ....)

O número 1 é para dizer que iremos ter apenas uma partição ou seja um único arquivo!!

Garanta sua matrícula hoje e ganhe + 2 meses grátis

Continue sua jornada tech com ainda mais tempo para aprender e evoluir

Quero aproveitar agora
1 resposta

Olá Douglas, tudo bem?

Agradeço por compartilhar seu código com a comunidade Alura.

Achei interessante que você trouxe a ideia de reduzir as partições usando coalesce(1), isso realmente ajuda quando queremos gerar apenas um único arquivo CSV a partir de um DataFrame Spark.

Compartilho também o método repartition() quando precisar aumentar o número de partições de forma dinâmica, por exemplo:


df_repart = df.repartition(3)
df_repart.write.csv("novo_caminho_output")

Esse código cria 3 partições do DataFrame e salva em múltiplos arquivos CSV. Útil quando o volume de dados aumenta e queremos paralelizar melhor a escrita.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!