[Sugestão] Reduzir as partições | Spark: apresentando a ferramenta | Alura - Cursos online de tecnologia

Entrar Ainda não tem acesso?

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

Referente ao curso Spark: apresentando a ferramenta, no capítulo Formas de armazenamento e atividade Arquivos CSV

por Douglas Yugo Machado Ide

| 41.1k xp | 2 posts

Caso queiram diminuir os arquivos part-xxxxxx.csv podemos gerar apenas um único arquivo CSV, usando o coalesce(1)

df.coalesce(1).write.csv("file_output_path", ....)

O número 1 é para dizer que iremos ter apenas uma partição ou seja um único arquivo!!

1 resposta

por Monalisa Meyrelle de Sousa Silva

| 4250.4k xp | 9827 posts

Alura Scuba Team

01/10/2025

Olá Douglas, tudo bem?

Agradeço por compartilhar seu código com a comunidade Alura.

Achei interessante que você trouxe a ideia de reduzir as partições usando coalesce(1), isso realmente ajuda quando queremos gerar apenas um único arquivo CSV a partir de um DataFrame Spark.

Compartilho também o método repartition() quando precisar aumentar o número de partições de forma dinâmica, por exemplo:


df_repart = df.repartition(3)
df_repart.write.csv("novo_caminho_output")

Esse código cria 3 partições do DataFrame e salva em múltiplos arquivos CSV. Útil quando o volume de dados aumenta e queremos paralelizar melhor a escrita.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Alura

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!