Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

txt para parquet ou avro em python

Bom dia, estou procurando alguma documentação ou exemplo de conversão em python de txt para avro e parquet. Alguém já fez algo semelhante ou tem algum modelo que sirva de exemplo?. Desde já agradeço.

1 resposta
solução!
arquivo = 'caminho/arquivo.txt'
PreLandingZonePath = 'diretorio_que_vai_salvar_avro'

sourceDf = spark.read.csv(arquivo, header="true",sep="|",quote= '"',encoding='UTF-8') #lendo txt

sourceDf.write.mode('overwrite').format('avro').option("encoding", 'UTF-8').save(PreLandingZonePath)
display(sourceDf) #Salvando em avro

display exibe os dados, também é possível visualizar utilizando print(sourceDf.show())

Para saber o total de dados: print(sourceDf.count())

Para transformar em parquet, só substituir o .format('avro') para .format('parquet')