Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

Como utilizar os benefícios do particionamento dos dados também na leitura?

Boa noite, pessoal, tudo certo?

Gostaria de saber se, assim como na escrita dos arquivos parquet, csv, que podemos definir a quantidade e como serão criadas as partições dos arquivos, se também conseguimos utilizar este benefício em dividir a execução e melhorar a performance também para operações de leitura.

Obrigado.

1 resposta

Oi Luis Henrique,

Então, essa é a grande vantagem de ferramentas de Big Data como o Spark. O Apache Spark é uma estrutura de processamento paralelo que dá suporte ao processamento em memória para otimizar o desempenho de aplicações Big Data.

Em nosso curso não fizemos uso deste tipo de recurso porque não era o foco, mas em um projeto Spark real nós teremos um cluster e seus dados serão distribuídos pelos nós deste cluster (pense em máquinas individuais) e processados paralelamente.

Espero ter ajudado