Parâmetro

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

1
resposta

por VAGNER LUIZ GAVA

| 144.4k xp | 32 posts

Caros, a definição de "max_features" do CountVectorizer É: "max_features: int or None, default=None If not None, build a vocabulary that only consider the top max_features ordered by term frequency across the corpus."

Oras, se é assim, porque não bate com o que foi obtido na aula "4.3 Tokenização - explorando o conceito", onde foi obtida a frequência do Corpus por meio da FreqDist do tokenize do nltk?

1 resposta

solução!

por Thiago G Santos

| 125.2k xp | 134 posts

Instrutor

04/05/2020

Olá Vagner!

As diferenças ocorrem pois o Sci-kit Learning, já faz alguns pré-processamentos por padrão, por por exemplo tranformar todoas as strings em minúsculo e até eliminar algumas palavras irrelevantes na construção do vocabulário!

Já o NLTK vai contabilizar a frequência com os dados brutos!

Espero que tenha ajudado!

Abraços

Importante

Parâmetro "max_features" do CountVectorizer X FreqDist do tokenize do nltk

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP