Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?
Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?
Oi Otniel, tudo bem?
Quando falamos em performance de leitura entre Parquet e ORC, não podemos afirmar categoricamente que um é sempre melhor que o outro. Embora o ORC tenha sido uma evolução do Parquet, a eficiência de cada um pode variar dependendo do cenário.
O ORC, como vimos na aula, foi projetado para oferecer uma leitura altamente eficiente. Ele é otimizado para o Hive e tem um excelente desempenho quando se trata de leitura de dados em grandes volumes. E, ele possui uma compactação de dados muito eficiente, o que pode economizar espaço de armazenamento.
Mas, o Parquet também tem suas vantagens. Ele é otimizado para uso com o Apache Arrow, o que pode tornar a leitura de dados extremamente rápida em certos cenários. E também, o Parquet é conhecido pela eficiência na leitura de colunas individuais, o que o torna uma ótima escolha para cenários de análise de dados.
Dito tudo isso, a escolha entre Parquet e ORC pode depender do seu caso de uso específico, pois é tem sempre esse "depende" na área da tecnologia haha! Se você estiver usando o Hive e precisar ler grandes volumes de dados, o ORC pode ser a melhor escolha. Por outro lado, se você estiver realizando muitas análises de colunas individuais, o Parquet pode ser mais eficiente.
Espero ter ajudado.
Um abraço e bons estudos.
Ah Certo Entendi, muito esclarecedor!! Muito obrigado