Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Duvida Parquet X Orc

Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?

2 respostas
solução!

Oi Otniel, tudo bem?

Quando falamos em performance de leitura entre Parquet e ORC, não podemos afirmar categoricamente que um é sempre melhor que o outro. Embora o ORC tenha sido uma evolução do Parquet, a eficiência de cada um pode variar dependendo do cenário.

O ORC, como vimos na aula, foi projetado para oferecer uma leitura altamente eficiente. Ele é otimizado para o Hive e tem um excelente desempenho quando se trata de leitura de dados em grandes volumes. E, ele possui uma compactação de dados muito eficiente, o que pode economizar espaço de armazenamento.

Mas, o Parquet também tem suas vantagens. Ele é otimizado para uso com o Apache Arrow, o que pode tornar a leitura de dados extremamente rápida em certos cenários. E também, o Parquet é conhecido pela eficiência na leitura de colunas individuais, o que o torna uma ótima escolha para cenários de análise de dados.

Dito tudo isso, a escolha entre Parquet e ORC pode depender do seu caso de uso específico, pois é tem sempre esse "depende" na área da tecnologia haha! Se você estiver usando o Hive e precisar ler grandes volumes de dados, o ORC pode ser a melhor escolha. Por outro lado, se você estiver realizando muitas análises de colunas individuais, o Parquet pode ser mais eficiente.

Espero ter ajudado.

Um abraço e bons estudos.

Ah Certo Entendi, muito esclarecedor!! Muito obrigado