Duvida Parquet X Orc

Otniel Gomes De Andrade · 2024-01-16 06:51

Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?

Oi Otniel, tudo bem?

Quando falamos em performance de leitura entre Parquet e ORC, não podemos afirmar categoricamente que um é sempre melhor que o outro. Embora o ORC tenha sido uma evolução do Parquet, a eficiência de cada um pode variar dependendo do cenário.

O ORC, como vimos na aula, foi projetado para oferecer uma leitura altamente eficiente. Ele é otimizado para o Hive e tem um excelente desempenho quando se trata de leitura de dados em grandes volumes. E, ele possui uma compactação de dados muito eficiente, o que pode economizar espaço de armazenamento.

Mas, o Parquet também tem suas vantagens. Ele é otimizado para uso com o Apache Arrow, o que pode tornar a leitura de dados extremamente rápida em certos cenários. E também, o Parquet é conhecido pela eficiência na leitura de colunas individuais, o que o torna uma ótima escolha para cenários de análise de dados.

Dito tudo isso, a escolha entre Parquet e ORC pode depender do seu caso de uso específico, pois é tem sempre esse "depende" na área da tecnologia haha! Se você estiver usando o Hive e precisar ler grandes volumes de dados, o ORC pode ser a melhor escolha. Por outro lado, se você estiver realizando muitas análises de colunas individuais, o Parquet pode ser mais eficiente.

Espero ter ajudado.

Um abraço e bons estudos.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP