1
resposta

Bag of Words usando Ngrams

É possível criar Bag fo Words usando Ngrams? Pois, em alguns casos queremos deixar mais claro a relação entre duas palavras que seriam encontradas soltas e que talvez não fossem tão relevante soltas, em nossa nuvem de palavras. Por exemplo, quando estamos analisando o atendimento de uma loja virtual, "ótimo atendimento" ou "precisa melhorar" seria mais relevante do que as palavra "atendimento" e "precisa" soltas em nossa nuvem..

1 resposta

Oi, João! Tudo bem? Espero que sim!

Desculpa a demora em te dar um retorno.

É possível sim! No entanto, a implementação é um pouco mais complexa. Esse método é conhecido por Bag-of-n-grams ou também chamado como Bag-of-bigrams e permite um maior entendimento do contexto em torno da frase (como já exposto por você, "ótimo atendimento" é muito mais informativo que "atendimento"). Infelizmente, não existem muitos materiais desse método em Python na internet para que seja possível o estudo. Então vou deixar aqui um tópico no stackoverflow que um aluno pede uma solução para o erro no código Bag-of-bigrams, lá é possível observar as funções de união do Bag of words e o n-grams bem separadas e na solução é mostrado o código sem erros que você pode usar como exemplo em suas aplicações ;-). No entanto, o tópico está em inglês, então, caso tenha dificuldade em relação a este idioma, indico que tente utilizar o tradutor do navegador, para conseguir efetuar a leitura em português.

Por fim, gostaria de sugerir a leitura de um artigo que implementa um Bag-of-n-grams em R, o que pode ser uma boa opção para estudo dessa aplicação e a linguagem R. O artigo é intitulado Creating text features with bag-of-words, n-grams, parts-of-speach and more que está em inglês, mas, novamente, se você tiver dificuldade em relação a este idioma, indico que tente utilizar o tradutor do navegador, para conseguir efetuar a leitura em português.

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!