Bom dia, estou procurando alguma documentação ou exemplo de conversão em python de txt para avro e parquet. Alguém já fez algo semelhante ou tem algum modelo que sirva de exemplo?. Desde já agradeço.
Bom dia, estou procurando alguma documentação ou exemplo de conversão em python de txt para avro e parquet. Alguém já fez algo semelhante ou tem algum modelo que sirva de exemplo?. Desde já agradeço.
arquivo = 'caminho/arquivo.txt'
PreLandingZonePath = 'diretorio_que_vai_salvar_avro'
sourceDf = spark.read.csv(arquivo, header="true",sep="|",quote= '"',encoding='UTF-8') #lendo txt
sourceDf.write.mode('overwrite').format('avro').option("encoding", 'UTF-8').save(PreLandingZonePath)
display(sourceDf) #Salvando em avro
display exibe os dados, também é possível visualizar utilizando print(sourceDf.show())
Para saber o total de dados: print(sourceDf.count())
Para transformar em parquet, só substituir o .format('avro') para .format('parquet')