1
resposta

Erro ao inserir o corpus textual

Oi pessoal! Estou tentando inserir o arquivo txt pelo Anaconda e está dando o seguinte erro:

# Abrindo o arquivo de texto como um corpus textual:
with open("artigos.txt", "r") as f:
    artigos = f.read()

print(artigos[:500])
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-13-2b9ee450b890> in <module>
      1 # Abrindo o arquivo de texto como um corpus textual:
      2 with open("artigos.txt", "r") as f:
----> 3     artigos = f.read()
      4 
      5 print(artigos[:500])

~\Anaconda3\lib\encodings\cp1252.py in decode(self, input, final)
     21 class IncrementalDecoder(codecs.IncrementalDecoder):
     22     def decode(self, input, final=False):
---> 23         return codecs.charmap_decode(input,self.errors,decoding_table)[0]
     24 
     25 class StreamWriter(Codec,codecs.StreamWriter):

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 24719: character maps to <undefined>

Vocês podem me ajudar? Até poderia usar o GoogleColab, mas curto usar mais o Anaconda!

1 resposta

Oi Guilherme, provavelmente python está abrindo o arquivo com uma codificação de caracteres incompatível com o arquivo. Tente executar a função open com o parâmetro (encoding="utf8").

open('dados/artigos.txt', 'r', encoding="utf8")