Não conseguir abrir os arquivo csv na aula NLP: regex e modelos de linguagem

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

por Breno Pena de Almeida

| 126.6k xp | 2 posts

Sobre a aula NLP: regex e modelos de linguagem não consigo abrir os arquivos stackoverflow_espanhol e stackoverflow_português gerando o seguinte erro:

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-42-ed17b711a6ee> in <cell line: 3>()
      1 url="https://raw.githubusercontent.com/alura-cursos/nlp-modelos-linguagem/master/dataset/stackoverflow_espanhol.csv"
      2 
----> 3 dados=pd.read_csv(url)

9 frames
/usr/local/lib/python3.10/dist-packages/pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 4: invalid continuation byte

Alguém poderia me ajudar?

2 respostas

solução!

por Rafael Rocha

| 2921.3k xp | 6072 posts

Alura Scuba Team

19/04/2024

Olá Breno, tudo bem com você?

Para evitar esse erro, é necessário dizer explicitamente o tipo de codificação do arquivo e também o separador utilizado, por exemplo:

dados=pd.read_csv(url,encoding="cp1252", sep=";")
dados

Resultado:

Imagem que mostra o resultado da execução do código

Por padrão, quando não especificamos o encoding , o Python irá pegar o encoding local do sistema e o seu provavelmente não é o uft8, por isso o erro é levantado. O encoding cp1252 é uma codificação amplamente utilizado em sistema Windows. Ele suporta uma variedade de caracteres especiais, acentos e símbolos usados em várias línguas europeias, como o português.

Tente especificar diretamente o tipo de codificação como mostrei acima e verifique se obtém sucesso.

Conte com o apoio do Fórum na sua jornada. Espero ter ajudado. Fico à disposição. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

por Breno Pena de Almeida

| 126.6k xp | 2 posts

21/04/2024

Funcionou corretamente. Obrigado!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP