[Reclamação] Diferença entre salvar em Parquet e Delta no Databricks

Olá, equipe, tudo bem?

Ao seguir o material do curso, na parte em que é mostrado como criar a tabela no Databricks a partir de um arquivo CSV, percebi uma divergência entre o que está no conteúdo e o que realmente funciona na prática.

O curso apresenta o uso de parquet no comando saveAsTable, mas esse procedimento resultou em erro ao tentar criar a tabela. Após pesquisar e testar, consegui resolver apenas utilizando o formato Delta, conforme abaixo:

df.write.mode("overwrite").format("delta").saveAsTable("data_csv")

Entendo que o Databricks utiliza o Delta Lake como formato nativo para tabelas gerenciadas, o que explica o motivo do erro com Parquet. No entanto, isso não foi abordado na aula, o que pode confundir bastante quem está acompanhando o passo a passo.

Sugiro que o material seja atualizado ou que seja incluída uma explicação sobre essa diferença entre Parquet e Delta, para que os alunos entendam melhor por que o Delta é o formato recomendado no Databricks e não percam tempo com erros.

Obrigado pela atenção!

Importante

[Reclamação] Diferença entre salvar em Parquet e Delta no Databricks

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP