Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Solucionado (ver solução)

Parâmetro "max_features" do CountVectorizer X FreqDist do tokenize do nltk

Caros, a definição de "max_features" do CountVectorizer É: "max_features: int or None, default=None If not None, build a vocabulary that only consider the top max_features ordered by term frequency across the corpus."

Oras, se é assim, porque não bate com o que foi obtido na aula "4.3 Tokenização - explorando o conceito", onde foi obtida a frequência do Corpus por meio da FreqDist do tokenize do nltk?

1 resposta
solução

Olá Vagner!

As diferenças ocorrem pois o Sci-kit Learning, já faz alguns pré-processamentos por padrão, por por exemplo tranformar todoas as strings em minúsculo e até eliminar algumas palavras irrelevantes na construção do vocabulário!

Já o NLTK vai contabilizar a frequência com os dados brutos!

Espero que tenha ajudado!

Abraços