Não seria melhor tratar os dados de teste assim como os de treino antes da medição da acurácia? inclusive em um ambiente de produção? imagino que os tratamentos aplicados até o "tratamento5" mudem a frase o suficiente para que faça diferença no resultado final.