Como utilizar os benefícios do particionamento dos dados também na leitura?

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

1
resposta

Referente ao curso Spark: apresentando a ferramenta

por Luis Henrique Vieira Guiraldelli

| 68.4k xp | 2 posts

Boa noite, pessoal, tudo certo?

Gostaria de saber se, assim como na escrita dos arquivos parquet, csv, que podemos definir a quantidade e como serão criadas as partições dos arquivos, se também conseguimos utilizar este benefício em dividir a execução e melhorar a performance também para operações de leitura.

Obrigado.

1 resposta

por Rodrigo Fernando Dias

| 125.4k xp | 214 posts

Instrutor

08/05/2022

Oi Luis Henrique,

Então, essa é a grande vantagem de ferramentas de Big Data como o Spark. O Apache Spark é uma estrutura de processamento paralelo que dá suporte ao processamento em memória para otimizar o desempenho de aplicações Big Data.

Em nosso curso não fizemos uso deste tipo de recurso porque não era o foco, mas em um projeto Spark real nós teremos um cluster e seus dados serão distribuídos pelos nós deste cluster (pense em máquinas individuais) e processados paralelamente.

Espero ter ajudado

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP