3
respostas

Como otimizar o parâmetro max_features do CountVectorizer?

Olá,

Temos utilizado em todas as aulas um valor fixo de 50 para o parâmetro max_features do CountVectorizer, porém é visível que a acurácia aumenta consideravelmente para maiores valores de max_features. Para um max_features de 500, a acurácia ultrapassa os 82%. Com isto, como otimizar o parâmetro max_features? Podemos aplicar um método semelhante ao do cotovelo do KMeans?

Para um max_features de 500 houve um aumento no tempo de processamento, porém este tempo é consideravelmente menor ao encontrado em nosso processamento 5 que utiliza a técnica RSLP e que possui acurácia menor.

3 respostas

Olá Alex, tudo bem?

Sim a quantidade de features do seu BOW realmente vai impactar o seu resultado, não há uma regra equivalente ao utilizado no KMeans. O número de features é um hiperparâmetro, você pode criar um range (50, 100, 300, 500, 1000, 1500) para o número de features por exemplo e testar o melhor modelo para os seus dados. Vou deixar o link desse curso na qual ensinamos otimização de modelos.

Obrigado pela resposta rápida e atenciosa, professor Thiago. Agradeço também pela conexão no Linkedin - Sou um engenheiro mecânico que resolveu se jogar neste mundo das tecnologias. Espero em breve me posicionar nas áreas de Data Science, Machine Learning e Desenvolvimento, e tenho certeza que este conteúdo de PLN será um diferencial.

Olá Alex, nos que agradecemos!

Espero que esse conteúdo faça diferença na sua carreira!

Abraços!