Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Parâmetro "max_features" do CountVectorizer X FreqDist do tokenize do nltk

Caros, a definição de "max_features" do CountVectorizer É: "max_features: int or None, default=None If not None, build a vocabulary that only consider the top max_features ordered by term frequency across the corpus."

Oras, se é assim, porque não bate com o que foi obtido na aula "4.3 Tokenização - explorando o conceito", onde foi obtida a frequência do Corpus por meio da FreqDist do tokenize do nltk?

1 resposta
solução!

Olá Vagner!

As diferenças ocorrem pois o Sci-kit Learning, já faz alguns pré-processamentos por padrão, por por exemplo tranformar todoas as strings em minúsculo e até eliminar algumas palavras irrelevantes na construção do vocabulário!

Já o NLTK vai contabilizar a frequência com os dados brutos!

Espero que tenha ajudado!

Abraços

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software