1
resposta

Erro ao ler arquivo

Olá a todos!

Não sei se foi só comigo mas...
O Spark estava conseguindo ler o arquivo imdb-reviews-pt-br.csv, porém ao fazer: dados.groupBy('sentiment').count().show() o conteudo exibido era como se nao tivesse sido delimitado corretamente.

Para resolver tive que ler o arquivo com pandas e salvar novamente, isso resolveu.

import pandas as pd
import csv

df = pd.read_csv(r'data\raw_data\imdb-reviews-pt-br.csv')
df.to_csv(r"data\etl_data\imdb-reviews-pt-br.csv", 
          index=False, 
          quoting=csv.QUOTE_ALL)

Depois consegui ler o arquivo no spark sem problemas algum.
Deixo aqui essa informação para caso alguém precise, e se tiver uma forma melhor de ler diretamente com spark agradeço!

1 resposta

Ei! Tudo bem, Vagner?

Obrigada por compartilhar, isso ajuda bastante a turma!
Esse comportamento pode acontecer quando o Spark não interpreta corretamente o delimitador, o encoding ou as aspas do CSV. Sua solução com o Pandas funcionou porque ele já trata bem esses detalhes por padrão.

Parabéns pela resolução, continue se dedicando e qualquer dúvida, conte conosco!

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!