Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Não conseguir abrir os arquivo csv na aula NLP: regex e modelos de linguagem

Sobre a aula NLP: regex e modelos de linguagem não consigo abrir os arquivos stackoverflow_espanhol e stackoverflow_português gerando o seguinte erro:

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-42-ed17b711a6ee> in <cell line: 3>()
      1 url="https://raw.githubusercontent.com/alura-cursos/nlp-modelos-linguagem/master/dataset/stackoverflow_espanhol.csv"
      2 
----> 3 dados=pd.read_csv(url)

9 frames
/usr/local/lib/python3.10/dist-packages/pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 4: invalid continuation byte

Alguém poderia me ajudar?

2 respostas
solução!

Olá Breno, tudo bem com você?

Para evitar esse erro, é necessário dizer explicitamente o tipo de codificação do arquivo e também o separador utilizado, por exemplo:

dados=pd.read_csv(url,encoding="cp1252", sep=";")
dados

Resultado:

Imagem que mostra o resultado da execução do código

Por padrão, quando não especificamos o encoding , o Python irá pegar o encoding local do sistema e o seu provavelmente não é o uft8, por isso o erro é levantado. O encoding cp1252 é uma codificação amplamente utilizado em sistema Windows. Ele suporta uma variedade de caracteres especiais, acentos e símbolos usados em várias línguas europeias, como o português.

Tente especificar diretamente o tipo de codificação como mostrei acima e verifique se obtém sucesso.

Conte com o apoio do Fórum na sua jornada. Espero ter ajudado. Fico à disposição. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Funcionou corretamente. Obrigado!