Tenho uma dúvida quanto a representação de palavras repetidas no vetor no bag of words. Se uma palavra se repetisse n vezes em uma frase, essa palavra teria o valor n no vetor?
Tenho uma dúvida quanto a representação de palavras repetidas no vetor no bag of words. Se uma palavra se repetisse n vezes em uma frase, essa palavra teria o valor n no vetor?
Ola, Pedro.
Creio que voce esta se referindo ao metodo de vetorizacao CountVectorizer
. Nesse caso, a resposta mais simples eh sim. Uma palavra que aparece N vezes no texto original, ira aparecer uma vez no vetor com seu contador com o valor N.
Exemplo:
import string
import unidecode
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
raw_text = 'O padre pouca capa tem, porque pouca capa compra.'
clean_text = unidecode.unidecode(raw_text.lower())
vectorizer = CountVectorizer()
bag_of_words = vectorizer.fit_transform([clean_text])
features = pd.SparseDataFrame(bag_of_words, columns=vectorizer.get_feature_names())
features.head() # capa (2), compra (1), padre (1), porque (1), pouca (2), tem (1)