1
resposta

DataBricks: Erro ao ler arquivo CSV - utilizando o pd.read_csv

Estou utilizando o código abaixo para ler um arquivo csv dentro do databricks, mas esta dando erro, preciso de uma ajuda. df = pd.read_csv('FileStore/tables/desafios/ciencia_dados/dados_ceaps/despesa_ceaps_2019.csv', sep=';', header=None) Erro: No such file or directory: 'FileStore/tables/desafios/ciencia_dados/dados_ceaps/despesa_ceaps_2019.csv'

Mas quando utilizo o codigo abaixo da certo df = spark.read.csv('dbfs:/FileStore/tables/desafios/ciencia_dados/dados_ceaps/', sep=';', header=True, inferSchema=True)

Só que eu gostaria de pular a primeira linha do arquivo onde contem a data do arquivo e depois que começa com os dados e cabeçalhos correto.

1º é possivel ler um arquivo somente com python sem utilizar o spark ou pyspark 2º se somente é possivel com pyspark ou spark como posso pular linhas lendo um arquivo csv, para possa identificar o resto dos dados

1 resposta

Olá Rony,

A impressão pelo seu código é que você não está usando a pandas pelo Spark. Aí realmente não será possível ler o arquivo porque a pandas procura pelos arquivos em outros diretórios. Tente usar dessa forma:

import pyspark.pandas as ps
ps.read_csv('/FileStore/tables/desafios/ciencia_dados/dados_ceaps/despesa_ceaps_2019.csv', sep=';', header=None)

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software