1
resposta

RE: post "Resultado diferente"

Você está usando o Colab ou o Jupyter?

Qual enconding você usou para abrir o arquivo "Artigos.txt" ? Os valores mudam um pouco de acordo com o enconding, alguns caracteres especiais mudam (acentos, ç, ã e etc.).

Qual é o default do Colab/Python?

No Jupyter estou tendo resultados ligeiramente diferente, deve ser alguma coisa no input. Única coisa diferente que estou fazendo. Ele não permite open o arquivo sem o encode

with open("(...)/artigos.txt", "r", encoding = 'utf-8') as f:
    artigos = f.read()

print(artigos[:500])

Se eu tento rodar sem o encoding da esse erro:

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-107-bb3fa8010fd0> in <module>
      1 with open('C:/Users/39789/Documents/Pessoal/Estudo/Alura/NLP/corretor-master/artigos.txt','r') as f:
----> 2     artigos = f.read()

~\Anaconda3\lib\encodings\cp1252.py in decode(self, input, final)
     21 class IncrementalDecoder(codecs.IncrementalDecoder):
     22     def decode(self, input, final=False):
---> 23         return codecs.charmap_decode(input,self.errors,decoding_table)[0]
     24 
     25 class StreamWriter(Codec,codecs.StreamWriter):

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 24719: character maps to <undefined>

Outra dúvida, depois de 4 semanas não está para responder um tópico mais? Não consegui achar essa opção?

1 resposta

Oii Guilherme, tudo bem?

Desculpa a demora em te dar um retorno sobre essa questão. O encoding do arquivo muito provavelmente é diferente do padrão utilizado no seu computador, e por isso precisa ter o encoding especificado no código. Se você tentar rodar o código no Google Colab, como o instrutor Thiago faz durante o curso, você pode usar o código sem o encoding sem problemas, porém, é uma boa prática utilizar o encoding para que outras pessoas entendam o que está acontecendo e possam replicar sem problemas.

Na documentação do Python podemos ver que o encoding padrão é none, e precisa ser referenciada no código, como você fez, mas como o encoding padrão no Google Colab é o UTF-8, ele faz automaticamente e não tem erro durante as aulas.

Sobre sua pergunta de 4 semanas, o tópico fecha para respostas dos alunos, mas seus própios tópicos podem ser editados e respondidos por você mesmo.

Se você tiver mais alguma dúvida quanto ao encoding, ao curso, ou outro assunto, pode nos procurar por aqui!

Bons estudos ^^