1
resposta

Como utilizar os benefícios do particionamento dos dados também na leitura?

Boa noite, pessoal, tudo certo?

Gostaria de saber se, assim como na escrita dos arquivos parquet, csv, que podemos definir a quantidade e como serão criadas as partições dos arquivos, se também conseguimos utilizar este benefício em dividir a execução e melhorar a performance também para operações de leitura.

Obrigado.

1 resposta

Oi Luis Henrique,

Então, essa é a grande vantagem de ferramentas de Big Data como o Spark. O Apache Spark é uma estrutura de processamento paralelo que dá suporte ao processamento em memória para otimizar o desempenho de aplicações Big Data.

Em nosso curso não fizemos uso deste tipo de recurso porque não era o foco, mas em um projeto Spark real nós teremos um cluster e seus dados serão distribuídos pelos nós deste cluster (pense em máquinas individuais) e processados paralelamente.

Espero ter ajudado