0
respostas

como eu faço para ler um arquivo em json file formato e escrever em parquet

import pyarrow as pa

with beam.Pipeline(options=options) as p:

       (p       
           | 'Read Json'      >> beam.io.ReadFromText('s3:// file.json')
           | 'write Parquet' >> beam.io.parquetio.WriteToParquet('s3://name_file', pa.schema([('campo1', pa.int64()),( 'campo2', pa.string())]))
       )

estou tentando sem sucesso ler um arquivo de origem em formato json la no s3 e escreve-lo em outro bucket s3 porem no formato .parquet.

obrigado

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software