1
resposta

[DICA] Erro no pd.read_csv

Ao executar o código:

import pandas as pd
resenha = pd.read_csv('imdb-reviews-pt-br.csv')
resenha.head()

apresentava o seguinte erro:

ParserError: Error tokenizing data. C error: EOF inside string starting at line

Aqui no forum vi para usar o encoding utf-8:

resenha = pd.read_csv('imdb-reviews-pt-br.csv',
                      encoding='utf-8')

Porém continuei com o mesmo erro, tive então que adicionar o parâmetro engine='c', conforme abaixo:

resenha = pd.read_csv('imdb-reviews-pt-br.csv',
                      engine='c',
                      encoding='utf-8')

Só então consegui efetuar a leitura dos dados.

1 resposta

Olá Leonardo, obrigado por compartilhar a dica!

Outra coisa que é sempre bom fazer é tentar verificar qual o encoding correto do arquivo, nomalmente abrindo o arquivo no Sublime Text ou VSCode é mostrado na barra inferior o encoding do arquivo. Muitas vezes temos arquivos salvos em iso-8859-1 e não utf-8

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software