Você está usando o Colab ou o Jupyter?
Qual enconding você usou para abrir o arquivo "Artigos.txt" ? Os valores mudam um pouco de acordo com o enconding, alguns caracteres especiais mudam (acentos, ç, ã e etc.).
Qual é o default do Colab/Python?
No Jupyter estou tendo resultados ligeiramente diferente, deve ser alguma coisa no input. Única coisa diferente que estou fazendo. Ele não permite open o arquivo sem o encode
with open("(...)/artigos.txt", "r", encoding = 'utf-8') as f:
artigos = f.read()
print(artigos[:500])
Se eu tento rodar sem o encoding da esse erro:
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-107-bb3fa8010fd0> in <module>
1 with open('C:/Users/39789/Documents/Pessoal/Estudo/Alura/NLP/corretor-master/artigos.txt','r') as f:
----> 2 artigos = f.read()
~\Anaconda3\lib\encodings\cp1252.py in decode(self, input, final)
21 class IncrementalDecoder(codecs.IncrementalDecoder):
22 def decode(self, input, final=False):
---> 23 return codecs.charmap_decode(input,self.errors,decoding_table)[0]
24
25 class StreamWriter(Codec,codecs.StreamWriter):
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 24719: character maps to <undefined>
Outra dúvida, depois de 4 semanas não está para responder um tópico mais? Não consegui achar essa opção?