Utilizei o stemming com o RSLPStemmer, reduzindo as palavras ao seu radical e criando a coluna tratamento_5 a partir da coluna tratamento_4. Em seguida, o modelo foi reavaliado com essa nova versão do texto tratado. Depois, foi aplicada a vetorização com TF-IDF, permitindo que o modelo considerasse não apenas a frequência das palavras, mas também sua relevância dentro do conjunto de avaliações. Também utilizei n-grams com o objetivo de capturar combinações de palavras e preservar parte do contexto textual. O melhor cenário foi avaliado com maior quantidade de features, permitindo uma representação mais rica dos textos. Também foram analisados os pesos da Regressão Logística, identificando os termos mais influentes para os sentimentos positivos e negativos.
Segue o código: https://github.com/Moquiuti/NLP/blob/main/TF_IDF_com_N_Grams_para_an%C3%A1lise_de_sentimentos.ipynb