1
resposta

[Reclamação] Diferença entre salvar em Parquet e Delta no Databricks

Olá, equipe, tudo bem?

Ao seguir o material do curso, na parte em que é mostrado como criar a tabela no Databricks a partir de um arquivo CSV, percebi uma divergência entre o que está no conteúdo e o que realmente funciona na prática.

O curso apresenta o uso de parquet no comando saveAsTable, mas esse procedimento resultou em erro ao tentar criar a tabela. Após pesquisar e testar, consegui resolver apenas utilizando o formato Delta, conforme abaixo:

df.write.mode("overwrite").format("delta").saveAsTable("data_csv")

Entendo que o Databricks utiliza o Delta Lake como formato nativo para tabelas gerenciadas, o que explica o motivo do erro com Parquet. No entanto, isso não foi abordado na aula, o que pode confundir bastante quem está acompanhando o passo a passo.

Sugiro que o material seja atualizado ou que seja incluída uma explicação sobre essa diferença entre Parquet e Delta, para que os alunos entendam melhor por que o Delta é o formato recomendado no Databricks e não percam tempo com erros.

Obrigado pela atenção!

1 resposta

Ei, Leonardo! Tudo bem?

Muito obrigada por compartilhar o problema que teve, a solução e uma sugestão de melhoria.

É muito pertinente o que trouxe, encaminharei para a equipe responsável ter conhecimento e caso queira reforçar, no formulário disponível ao final da aula, dê o seu depoimento sincero sobre este ponto.

Continue se dedicando aos estudos e qualquer dúvida, compartilhe.

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!