Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Pessoal uma duvida, considerando que o Orc é uma evolução do Parquet pode consderar que para leitura dos dados ele é melhor que o Parquet?
Oi Otniel, tudo bem?
Quando falamos em performance de leitura entre Parquet e ORC, não podemos afirmar categoricamente que um é sempre melhor que o outro. Embora o ORC tenha sido uma evolução do Parquet, a eficiência de cada um pode variar dependendo do cenário.
O ORC, como vimos na aula, foi projetado para oferecer uma leitura altamente eficiente. Ele é otimizado para o Hive e tem um excelente desempenho quando se trata de leitura de dados em grandes volumes. E, ele possui uma compactação de dados muito eficiente, o que pode economizar espaço de armazenamento.
Mas, o Parquet também tem suas vantagens. Ele é otimizado para uso com o Apache Arrow, o que pode tornar a leitura de dados extremamente rápida em certos cenários. E também, o Parquet é conhecido pela eficiência na leitura de colunas individuais, o que o torna uma ótima escolha para cenários de análise de dados.
Dito tudo isso, a escolha entre Parquet e ORC pode depender do seu caso de uso específico, pois é tem sempre esse "depende" na área da tecnologia haha! Se você estiver usando o Hive e precisar ler grandes volumes de dados, o ORC pode ser a melhor escolha. Por outro lado, se você estiver realizando muitas análises de colunas individuais, o Parquet pode ser mais eficiente.
Espero ter ajudado.
Um abraço e bons estudos.
Ah Certo Entendi, muito esclarecedor!! Muito obrigado