Fiz o seguinte código para classificar uma nova resenha usando o modelo treinado com o dataset do IMDB_PTBR
from itertools import repeat
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from nltk import tokenize
predict_model = pickle.load(open('sentiments.sav', 'rb'))
vectorizer = CountVectorizer(
lowercase=False,
ngram_range=(1, 2),
max_features=(predict_model.n_features_in_ - 6))
phrase = "nunca assisti um filme tao ruim"
bag_of_words = vectorizer.fit_transform([phrase])
predict_result = predict_model.predict(bag_of_words)
print(predict_result)
O problema é que quando roda o código acima, o seguinte erro é retornado
ValueError: X has 11 features per sample; expecting 2424930
Eu entendi que o tamanho da minha nova review é diferente dos dados de treino mas ai eu não sei como "completar" a nova frase com os espaços necessários. Alguém pode me ajudar?