Olá, equipe, tudo bem?
Ao seguir o material do curso, na parte em que é mostrado como criar a tabela no Databricks a partir de um arquivo CSV, percebi uma divergência entre o que está no conteúdo e o que realmente funciona na prática.
O curso apresenta o uso de parquet no comando saveAsTable, mas esse procedimento resultou em erro ao tentar criar a tabela. Após pesquisar e testar, consegui resolver apenas utilizando o formato Delta, conforme abaixo:
df.write.mode("overwrite").format("delta").saveAsTable("data_csv")
Entendo que o Databricks utiliza o Delta Lake como formato nativo para tabelas gerenciadas, o que explica o motivo do erro com Parquet. No entanto, isso não foi abordado na aula, o que pode confundir bastante quem está acompanhando o passo a passo.
Sugiro que o material seja atualizado ou que seja incluída uma explicação sobre essa diferença entre Parquet e Delta, para que os alunos entendam melhor por que o Delta é o formato recomendado no Databricks e não percam tempo com erros.
Obrigado pela atenção!