Olá,
Temos utilizado em todas as aulas um valor fixo de 50 para o parâmetro max_features do CountVectorizer, porém é visível que a acurácia aumenta consideravelmente para maiores valores de max_features. Para um max_features de 500, a acurácia ultrapassa os 82%. Com isto, como otimizar o parâmetro max_features? Podemos aplicar um método semelhante ao do cotovelo do KMeans?
Para um max_features de 500 houve um aumento no tempo de processamento, porém este tempo é consideravelmente menor ao encontrado em nosso processamento 5 que utiliza a técnica RSLP e que possui acurácia menor.