Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Arquivo clientes_bancos.csv prblema com encoding

Boa noite!

Quando tento carregar o arquivo ou a URL ele acusa erro

ParserError: Error tokenizing data. C error: Expected 11 fields in line 10566, saw 19

Quando ignoro o erro da linha não consigo configurar o encoding=

dados = pd.read_csv('clientes_banco.csv', encoding='MacRoman', on_bad_lines='skip', engine='python')

Tentei o tratamento mas o encoding apontado deixa alguns caracteres bagunçados

![](Insira aqui a descrição dessa imagem para ajudar na acessibilidade )
encoding que já tentei

iso-8859-1, cp1252, latin-1, utf-8, utf-8-sig, MacRoman

Matricule-se agora e aproveite até 50% OFF

O maior desconto do ano para você evoluir com a maior escola de tecnologia

QUERO APROVEITAR
3 respostas

Olá Cleiton.
Vamos tentar lhe ajudar.
Parece que você está enfrentando problemas com o carregamento de um arquivo CSV devido a um erro de codificação e formato de dados.
Isso é bastante comum quando o arquivo contém caracteres especiais ou inconsistências no número de colunas em algumas linhas.
Vamos analisar algumas opções para resolver esse problema:
O erro "Expected 11 fields in line 10566, saw 19" indica que, em uma linha específica, há mais colunas do que o esperado.
Isso pode ocorrer quando há dados mal formatados ou separadores inconsistentes.
Tente usar o parâmetro error_bad_lines=False (em versões mais antigas do pandas) ou on_bad_lines='skip' (para versões mais recentes), como você já tentou.
Se o problema persistir com a codificação, você pode testar outros encodings.
Embora você já tenha tentado várias opções, talvez valha a pena tentar alguns adicionais, como utf-16 ou latin9.
Aqui estão algumas sugestões para o código:

import pandas as pd
# Tentando uma codificação diferente
dados = pd.read_csv('clientes_banco.csv', encoding='utf-16', on_bad_lines='skip', engine='python')
# Verificando as primeiras linhas
print(dados.head())

Caso você tenha acesso ao arquivo, pode abrir em um editor de texto ou até mesmo em um programa como Excel e procurar pelas linhas que apresentam problemas (como a linha 10566) e corrigi-las manualmente.
Se você está usando o padrão de separador , (vírgula), e o arquivo na verdade usa outro delimitador como ponto e vírgula ;, tente especificar o separador:

dados = pd.read_csv('clientes_banco.csv', encoding='utf-8', sep=';', on_bad_lines='skip', engine='python')

Testa ai as opçoes e avisa se deu certo.
Bons estudos.

solução!

Não consegui fazer funcionar de jeito nenhum no Colab, então a solução que encontrei foi... tratar os dados no Power bi, exportar e carregar novamente no Colab.

Obrigado pela atenção Ronaldo!

Olá amigo.
Fico feliz que tenha achado a solução.
Mas não precisa sair do Colab para tratar os dados.
Bons estudos.