Dentro das etapas do código da função final após a carga do modelos, as classes utilizadas eu não consegui entender o pq que a classe token_espaco = tokenize.WhitespaceTokenizer() não foi utlizada como uma das etapas da leitura de novos dados na função abaixo:
palavras_irrelevantes = nltk.corpus.stopwords.words('portuguese')
token_pontuacao = tokenize.WordPunctTokenizer()
stemmer = nltk.RSLPStemmer()
def processar_avaliacao(avaliacao):
# passo 1
tokens = token_pontuacao.tokenize(avaliacao)
# passo 2
frase_processada = [palavra for palavra in tokens if palavra.lower() not in palavras_irrelevantes]
# passo 3
frase_processada = [palavra for palavra in frase_processada if palavra.isalpha()]
# passo 4
frase_processada = [unidecode.unidecode(palavra) for palavra in frase_processada]
# passo 5
frase_processada = [stemmer.stem(palavra) for palavra in frase_processada]
return ' '.join(frase_processada)