Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

[Sugestão] Pra quem quiser visualizar melhor a matriz resultante. Uma conversão para dataframe

Uma sugestão, é simples, mas pode ser útil para iniciantes.
Facilitando visualizaçao da matriz de dados resultantes da vetorização e, auxiliar quem esta iniciando a visualizar melhor, por exemplo, a repetição da palavras viajar que recebe o valor 1 na ultima coluna, com isso intuir que pode ser medido quão próximos esses vetores estão.

from sklearn.feature_extraction.text import CountVectorizer #BoW e contagem de frequencia para vetorizar
import pandas as pd


# Conjunto de frases
frases = ["Eu amo viajar para o Japão", 
          "Viajar é incrível", 
          "Quero conhecer o Japão"]

# Criando o modelo BoW
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(frases)

# Exibir matriz resultante
print(vectorizer.get_feature_names_out())
print(X.toarray())

#Converter o array para dataframe
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
df[vectorizer.get_feature_names_out()] = X.toarray()
display(df)