Acurácia diminuiu depois de rodar as stopwords | Linguagem Natural parte 1: NLP com análise de sentimento

Olá Carlos, tudo bem?

Bom primeiro em relação aos valores de acurácia depois de removido os Stopwords.

Esta diferença de resultado é relativamente pequena, quando você cria um modelo de ML existe um fator de aleatóriedade associado, caso vc não set um SEED que irá fazer seu modelo gerar sempre o mesmo resultado, existe um intervalo (mesmo que pequeno) de variação nas predições devido a esta aleatoriedade (por exemplo a acurácia de predição será de 0.66000 - 0.67000). Essa pequena diferença de resultado pode ter ocorrido devido a este fator, visto que neste nosso exemplo remover os stopwords não gera grandes impactos no resultado final.

Em relação a segunda parte da sua dúvida!

Se você analisar a função classifica_texto você vai ver que criamos o BOW quando chamamos a função:

bag_of_words = vetorizar.fit_transform(texto[coluna_texto])

Então quando passamos a coluna tratamento_1 para a função classifica texto, estamos criando o BOW com os dados tratados!

Bons estudos, abraços!