Ganho de desempenho não se deve ao Ngrams

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

por Matheus dos Santos Rodrigues

| 124.1k xp | 3 posts

Não sei se propositalmente ou não, mas não foi enfatizado na aula que o salto de desempenho do modelo não se deve ao uso de ngrams, mas sim na não limitação do hiperamentro "max_features" em "TfidfVectorizer".

No modelo sem ngrams:

tfidf = TfidfVectorizer(lowercase=False, max_features=50)
tfidf_tratado = tfidf.fit_transform(resenha['tratamento_5'])

obtivemos uma acurácia de ~0.69

No modelo com ngrams:

tfidf = TfidfVectorizer(lowercase=False, ngram_range=(1,2))
vetor_tfidf = tfidf.fit_transform(resenha['tratamento_5'])

obtivemos uma acurácia de ~0.88

No entanto, se incluirmos a limitação "max_features=50" a acurácia volta para a casa dos 69%.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP