Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Dúvida - Identificação de palavras da Bag of Words

Boa tarde!

Na aula sobre vetorização dos tokens de NLP com o objeto CountVectorizer foi mostrado que era possível identificar as palavras presentes no modelo com o auxílio do método "vocabulary", tal como no print a seguir:

Insira aqui a descrição dessa imagem para ajudar na acessibilidadeNessa aula vimos que é possível construir a mesma vetorização utilizando o objeto HashingTF, também do PySpark, com a vantagem de que esse último é mais simples de ser aplicado ao dataset (não exige a definição de um modelo). Mas existe algum análogo do "vocabulary" para o HashingTF? Em outras palavras, sabemos que podemos escolher quantos tokens nosso conjunto de dados terá, mas podemos consultar quais foram escolhidos pelo algoritmo?

Desde já, agradeço a atenção!

2 respostas
solução!

Olá Lucas, tudo bem?

Excelente dúvida! Há algumas discussões disponíveis sobre esse assunto. Como vimos, para a vetorização foram apresentadas essas duas maneiras, CountVectorizer e HashingTF . E ambas possuem características diferentes, em relação ao método .vocabulary não conseguimos usá-lo com o HashingTF.

Claro que a escolha dessa última pode tornar mais simplificada a execução e mais rápida em termos de processamento e memória, no entanto, os modelos criados usando esse tipo de entrada podem se tornar mais difíceis de interpretar e monitorar. Há algumas alternativas de mapear o index e encontrar o vocabulário, porém, não é garantido a total reversão dos labels quando utilizamos o hashing TF para obter o vocabulário da sacola de palavras.

Há uma discussão no Stack overflow sobre esse assunto, se quiser acompanhar é só clicar aqui. Em resumo, a utilização das cada uma das possibilidades deve levar em consideração suas características alinhado ao problema que você está modelando.

Espero ter ajudado com esses apontamentos. Bons estudos =)

Ficou bastante claro agora! Muito obrigado pela explicação e pela sugestão de referência =)