Leitura do

Solucionado (ver solução)

Solucionado
(ver solução)

8
respostas

por Paula Furtado Schmitt Corrêa

| 19.1k xp | 5 posts

Não consigo rodar o arquivo no Colab, segue erro:

tmdb = pd.read_csv("tmdb_5000_movies.csv")
tmdb.head()

ParserError Traceback (most recent call last) in () ----> 1 tmdb = pd.read_csv("tmdb_5000_movies.csv") 2 tmdb.head()

3 frames /usr/local/lib/python3.6/dist-packages/pandas/io/parsers.py in read(self, nrows) 2035 def read(self, nrows=None): 2036 try: -> 2037 data = self.reader.read(nrows) 2038 except StopIteration: 2039 if self.first_chunk:

pandas/libs/parsers.pyx in pandas.libs.parsers.TextReader.read()

pandas/libs/parsers.pyx in pandas.libs.parsers.TextReader.readlow_memory()

pandas/libs/parsers.pyx in pandas.libs.parsers.TextReader.readrows()

pandas/libs/parsers.pyx in pandas.libs.parsers.TextReader.tokenizerows()

pandas/libs/parsers.pyx in pandas.libs.parsers.raise_parser_error()

ParserError: Error tokenizing data. C error: Expected 20 fields in line 23, saw 29

8 respostas

por Allan Segovia Spadini

| 439k xp | 512 posts

Instrutor

17/08/2020

Olá Paula,

Testei aqui e consegui rodar o arquivo no Colab. Meu palpite é que você deveria ter esperado um pouco mais para rodar o comando. Esse arquivo tmdb_5000_movies.csv é meio grande e se rodarmos o comando antes do arquivo subir totalmente aparece esse tipo de erro. A solução é tentar novamente e esperar aquela bolinha laranja que fica rodando na parte inferior ao lado do nome do arquivo desaparecer.

por Paula Furtado Schmitt Corrêa

| 19.1k xp | 5 posts

17/08/2020

Oi Allan, Obrigada! Mas o erro ainda persiste, mesmo aguardando o carregamento completo e ainda dando com CTRL+S antes da execução. Consigo rodar qualquer outro arquivo das aulas anteriores, menos este. Já tentei baixar o arquivo direto do Kaggle ou da pasta zipada, mesmo erro.

por Allan Segovia Spadini

| 439k xp | 512 posts

Instrutor

18/08/2020

Tente alterar o comando do read_csv para:

tmdb = pd.read_csv("tmdb_5000_movies.csv",sep=',')

Agora que reparei nesta parte do erro:

ParserError: Error tokenizing data. C error: Expected 20 fields in line 23, saw 29

Ele parece estar lendo os arquivos esperando um separador diferente. Como baixou o arquivo também de uma fonte diferente o ideal é abrir no seu pc com o bloco de notas e verificar o que esta sendo usando para separar as colunas. Se for tab vai ter que usar sep='\t' se for ; , sep=';' e assim por diante.

Avise se o erro persistir. Vamos até corrigir :)

por Paula Furtado Schmitt Corrêa

| 19.1k xp | 5 posts

23/08/2020

Oi Allan, obrigada pela dica, estamos quase lá! Consigo rodar o arquivo agora utilizando o sep=';' , mas os títulos se acumularam na primeira coluna separados por vírgula. As demais colunas ficaram com "Unnamed" nos títulos, e as linhas abaixo desses títulos estão como "NaN".

por Allan Segovia Spadini

| 439k xp | 512 posts

Instrutor

24/08/2020

Oi Paula,

Pode disponibilizar o link do arquivo que baixou e está usando? Se fossem apenas as colunas seria simples, mas quero entender melhor como o arquivo está escrito. Assim, consigo te dar uma resposta mais definitiva.

por Paula Furtado Schmitt Corrêa

| 19.1k xp | 5 posts

25/08/2020

Oi Allan, Segue o link: https://github.com/alura-cursos/introducao-a-data-science/archive/aula3.zip

por Paula Furtado Schmitt Corrêa

| 19.1k xp | 5 posts

25/08/2020

Aproveitando, segue o código que inseri pra rodar: tmdb = pd.read_csv("tmdb_5000_movies.csv",sep=';') tmdb.head()

solução!

por Allan Segovia Spadini

| 439k xp | 512 posts

Instrutor

26/08/2020

Oi Paula,

Em determinado momento pensei que estivesse usando uma base de dados de uma fonte diferente. Essa do link que passou está separada por vírgula. Eu consegui ler ele fazendo apenas:

 pd.read_csv(db_5000_movies.csv)

Se não conseguindo ler assim é porque está acontecendo algum problema na hora do upload do seu pc para o colab.

Uma outra forma que consegui ler o arquivo evitando o upload foi indo na url: https://github.com/alura-cursos/introducao-a-data-science/blob/aula3/aula3.1/tmdb_5000_movies.csv

E clicando em View raw

Após isso eu copiei este endereço onde aparece o arquivo.

Assim eu consegui ler o arquivo com o seguinte código:

import pandas as pd

url='https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/aula3/aula3.1/tmdb_5000_movies.csv'

tmdb = pd.read_csv(url)

tmdb.head()

Espero que dê certo desta vez. Sugiro que comece a formação python para data science. Assim, vai pegar um curso onde o instrutor começa do zero com o colab e acho que vai te ajudar bastante com dúvidas futuras também.