Dúvida - Identificação de palavras da Bag of Words | Spark: processamento de linguagem natural

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

Referente ao curso Spark: processamento de linguagem natural, no capítulo Vetorização das palavras e atividade Hashing TF

por Lucas de Paula Oliveira

| 94.2k xp | 9 posts

Boa tarde!

Na aula sobre vetorização dos tokens de NLP com o objeto CountVectorizer foi mostrado que era possível identificar as palavras presentes no modelo com o auxílio do método "vocabulary", tal como no print a seguir:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade Nessa aula vimos que é possível construir a mesma vetorização utilizando o objeto HashingTF, também do PySpark, com a vantagem de que esse último é mais simples de ser aplicado ao dataset (não exige a definição de um modelo). Mas existe algum análogo do "vocabulary" para o HashingTF? Em outras palavras, sabemos que podemos escolher quantos tokens nosso conjunto de dados terá, mas podemos consultar quais foram escolhidos pelo algoritmo?

Desde já, agradeço a atenção!

2 respostas

solução!

por Ana Duarte

| 162.8k xp | 206 posts

Instrutor

22/02/2023

Olá Lucas, tudo bem?

Excelente dúvida! Há algumas discussões disponíveis sobre esse assunto. Como vimos, para a vetorização foram apresentadas essas duas maneiras, CountVectorizer e HashingTF . E ambas possuem características diferentes, em relação ao método .vocabulary não conseguimos usá-lo com o HashingTF.

Claro que a escolha dessa última pode tornar mais simplificada a execução e mais rápida em termos de processamento e memória, no entanto, os modelos criados usando esse tipo de entrada podem se tornar mais difíceis de interpretar e monitorar. Há algumas alternativas de mapear o index e encontrar o vocabulário, porém, não é garantido a total reversão dos labels quando utilizamos o hashing TF para obter o vocabulário da sacola de palavras.

Há uma discussão no Stack overflow sobre esse assunto, se quiser acompanhar é só clicar aqui. Em resumo, a utilização das cada uma das possibilidades deve levar em consideração suas características alinhado ao problema que você está modelando.

Espero ter ajudado com esses apontamentos. Bons estudos =)

por Lucas de Paula Oliveira

| 94.2k xp | 9 posts

23/02/2023

Ficou bastante claro agora! Muito obrigado pela explicação e pela sugestão de referência =)