Caros bom dia,
Estou realizando um projeto que envolve análise de sentimento para prever que textos muitos semelhantes tenham uma mesma classificação.
Com base no aprendizado do curso de NLP, fiz os tratamentos dos textos utilizando tokenização, retirada de stop words, pontuações, acentos, apliquei stemmer e tb utilizei outras vetorizações como TF-IDF e NGRAMS.
Tb utilizei vários modelos como regressão logística, naive bayes, Bernoulli, usei tb Ensemble Method “Random Forest”, inclusive apliquei os “best” parameters para o Random Forest.
E para todos os testes e modelagens que fiz ele me trouxe uma predição que na minha opinião não deveria acontecer, ou seja, para alguns textos extremamente semelhantes ou até iguais, ele me deu classificações de predições diferentes uma da outra. Exemplo:
Bom dia Fabio, seu número de controle é 123456, por favor ligue para xx55xx. Predição: “Negativa”. Bom dia Fabio, seu número de controle é 123456, por favor ligue para xx55xx. Predição: “Positiva”.
Detalhe...mesmo retirando os números dos textos, ele ainda continua classificando da mesma forma, e encontrei este mesmo problema para vários outros textos, então eu não entendo como ele pode classificar textos idênticos com predições diferentes.
Então gostaria de uma ajuda, por gentileza, para entender o que devo fazer para que eles tenham uma predição mais assertiva ou que ao menos classifiquem os textos iguais com mesma classificação de predição.
Obrigado.