2
respostas

O que é Bag of Words?

Tem uma parte do texto que diz: "Como acabamos de ver o Bag of Words irá criar uma label para cada palavra do nosso dataset". O que é Bag of Words? Até agora não me lembro de ter visto nas aulas.

2 respostas

Olá Marcos, tudo bem?

Bag-of-words é uma representação simplificada usada no processamento de linguagem natural e na recuperação de informações (IR).

Exemplo:

(1) John gosta de assistir filmes. Mary também gosta de filmes.

(2) John também gosta de assistir jogos de futebol.

Com base nesses dois documentos de texto, uma lista é construída da seguinte forma:

[ 
    "John" , 
    "gosta" , 
    "de" , 
    "assistir" , 
    "filmes" , 
    "Mary" , 
    "também" , 
    "futebol" , 
    "jogos" 
]

Espero ter esclarecido sua dúvida. Bons estudos e sucesso!

Olá Marcos.

Na aula 2 atividade 3 temos esse video e nele o professor explica teoricamente o que é o bag of words.

Já na aula 2 atividade 4 temos o video onde ele faz o uso da biblioteca CountVectorizer para construir um bag of words.

Uma explicação simples é que o bag of words é uma lista que contem todas as palavras que estão nos textos de maneira não repetida e utilizamos ela no NLP para poder identificar as palavras mais recorrentes e entender se ela agregam algum sentimento.

Exemplo de um Bag of Words:

textos = "Os cursos de NLP da Alura utilizam Bag of Words" e "Aprendi Bag of Words perguntando no fórum da Alura"

Bag of WordsOscursosdeNLPdaalurautilizamBagofWordsAprendiperguntandonofórum
Texto 111111111110000
Texto 200001101111111
Espero ter ajudado, se tiver alguma duvida não hesite em perguntar.

Bons Estudos.