Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Em uma das dimensões do vetor, podem existir números de 0 a n?

Tenho uma dúvida quanto a representação de palavras repetidas no vetor no bag of words. Se uma palavra se repetisse n vezes em uma frase, essa palavra teria o valor n no vetor?

1 resposta
solução!

Ola, Pedro.

Creio que voce esta se referindo ao metodo de vetorizacao CountVectorizer. Nesse caso, a resposta mais simples eh sim. Uma palavra que aparece N vezes no texto original, ira aparecer uma vez no vetor com seu contador com o valor N.

Exemplo:

import string
import unidecode
import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer

raw_text = 'O padre pouca capa tem, porque pouca capa compra.'
clean_text = unidecode.unidecode(raw_text.lower())

vectorizer = CountVectorizer()
bag_of_words = vectorizer.fit_transform([clean_text])

features = pd.SparseDataFrame(bag_of_words, columns=vectorizer.get_feature_names())
features.head() # capa (2), compra (1), padre (1), porque (1), pouca (2), tem (1)

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software