2
respostas

[Sugestão] Databricks Free Edition

estou utilizando a versão free Editon juntamente com a vesão na Azure. Porém, na versão Free Edition, não tem a opção DBFS e as opções de navegação mostrads no vídeo, são totalmente diferente. A versão da Azure é a mesma da Free Editon. EStou conseguindo fazer o curso, porque estou explorando as opções para encontrar onde crio os notebooksm faço o upload do arquivo .csv e do notebook. Na versão Free Edition, como não tem a opção DBFS, vi na documentação que fala ser uma opção deprecated, porém, consegui fazer o upload e criar a tabela, mas não consegui criar a tabela utilizando o código. Poderia, fazer um tutorial de como fazer com a versão Free Edition ?

2 respostas

Oii, Alexander! Tudo bem?

Agradeço por aguardar o nosso retorno.

Para encontrar o DBSF dentro do Azure Databricks, recomendo que siga os passos da atividade Mudança na criação do Cluster e ativação do DBFS, pois ao realizar os testes os passos continuam os mesmos, está certinho.

A criação da tabela realmente está um pouco diferente da aula. Para isso, preparei o tutorial abaixo para você seguir após realizar os passos da ativação do DBFS:

  • Ainda na guia de tabela no DBFS, clique com o botão direito do mouse sobre o arquivo csv, selecione copiar caminho e, em seguida, Formato da API do Spark. Guarde esse caminho em um bloco de notas. Captura de tela em formato de gif demonstrando os passos descritos anteriormente.

  • Agora, no menu na lateral, clique em Espaço de trabalho, depois, Criar notebook:

A imagem mostra a interface do Databricks dentro do Microsoft Azure. Ela destaca o passo a passo para criar um novo notebook: (1) acessar Espaço de trabalho, (2) clicar em Criar e (3) selecionar Notebook no menu suspenso.

dbutils.fs.rm('/user/hive/warehouse/data_csv', recurse=True)

# Para este procedimento funcionar o arquivo data.csv deve estar carregado no DBFS no endereço especificado na variável `file_location`
file_location = '/FileStore/tables/data.csv'
file_type = 'csv'
infer_schema = 'true'
first_row_is_header = 'true'
delimiter = ';'

df = spark\
    .read\
    .format(file_type)\
    .option('inferSchema', infer_schema)\
    .option('header', first_row_is_header)\
    .option('sep', delimiter)\
    .load(file_location)

table_name = 'data_csv'

df.write.format('parquet').saveAsTable(table_name)
  • Antes de executar o código acima, em file_location = '/FileStore/tables/data.csv', vamos substituir pelo caminho que copiamos no passo 1. Por exemplo, o meu caminho ficou assim:
file_location = 'dbfs:/FileStore/tables/data__3_.csv'
  • Após o caminho ajustado do arquivo, execute o código apertando Shift + Enter ou apertado a setinha no canto direito da célula dó código.

A imagem mostra uma célula de código Python em execução no Databricks, onde um arquivo CSV é carregado do DBFS, lido com Spark e salvo como tabela Parquet. Os destaques indicam o botão para executar o código e um lembrete de atalho Shift+Enter para executar e avançar para a próxima célula.

Pronto, a tabela foi criada no notebook e você poderá seguir com as aulas.

Espero ter ajudado, qualquer dúvida é só compartilhar no fórum. Estaremos por aqui.

Até mais, Alexander!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado!

Olá Nathalia, obrigado pelo retorno

Eu criei uma conta no Databricks Free Edition e na Azure para realizar este curso. Estou repedindo os exercicios na versão free Edition para entender as limitações que tenho ;-)

Consegui criar a tabela na versão Azure, porém utilizando a opção Parquet "df.write.format('parquet').saveAsTable(table_name)" eu recebi uma mensagem de erro e uma indicação automática para trocar de PARQUET para Delta, e com esta opção a tabela foi criada.

Acredito que vale a pena dar uma revisada para ajustar o comando no treinamento

Obrigado