Professor, quando são feitos os testes de acurácia do TfidfVectorizer, testei fazer os mesmos testes trocando a coluna tratamento_5 pela coluna text_pt, e o resultado da acurácia ficou um pouco maior, sendo que essa seria a coluna sem tratamento. Não entendi o motivo disso ocorrer.
# teste tratamento_5
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(resenha["tratamento_5"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
resenha["classificacao"],
random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)
0.8858875859280226
# teste text_pt
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(resenha["text_pt"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
resenha["classificacao"],
random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)
0.8862919530934088