Bom dia, estou procurando alguma documentação ou exemplo de conversão em python de txt para avro e parquet. Alguém já fez algo semelhante ou tem algum modelo que sirva de exemplo?. Desde já agradeço.
ATÉ 40% OFF
TÁ ACABANDO!
0 dias
0 horas
0 min
0 seg
Bom dia, estou procurando alguma documentação ou exemplo de conversão em python de txt para avro e parquet. Alguém já fez algo semelhante ou tem algum modelo que sirva de exemplo?. Desde já agradeço.
arquivo = 'caminho/arquivo.txt'
PreLandingZonePath = 'diretorio_que_vai_salvar_avro'
sourceDf = spark.read.csv(arquivo, header="true",sep="|",quote= '"',encoding='UTF-8') #lendo txt
sourceDf.write.mode('overwrite').format('avro').option("encoding", 'UTF-8').save(PreLandingZonePath)
display(sourceDf) #Salvando em avro
display exibe os dados, também é possível visualizar utilizando print(sourceDf.show())
Para saber o total de dados: print(sourceDf.count())
Para transformar em parquet, só substituir o .format('avro') para .format('parquet')