perplexity inf | NLP: regex e modelos de linguagem | Alura

Olá Paulo, tudo bem ?

Desculpa pela demora no retorno.

Quando o valor da perplexidade é inf pode indicar que temos uma palavra que o modelo não aprendeu isso porque a perplexidade é a inversa da probabilidade, então se o modelo não conhece a palavra a probabilidade é zero e a perplexidade é infinita. Como foi explicado nesta aula.

Então uma sugestão para resolver esse resultado é verificar a variável palavras_bigramns está igual a da aula.

texto = "good morning"
palavras = WhitespaceTokenizer().tokenize(texto)
palavras_fakechar = [list(pad_both_ends(palavra, n = 2)) for palavra in palavras]
palavras_bigramns = [list(bigrams(palavra)) for palavra in palavras_fakechar]
print(palavras_bigramns)

Resultado:

[[('<s>', 'g'), ('g', 'o'), ('o', 'o'), ('o', 'd'), ('d', '</s>')], [('<s>', 'm'), ('m', 'o'), ('o', 'r'), ('r', 'n'), ('n', 'i'), ('i', 'n'), ('n', 'g'), ('g', '</s>')]]

Espero que isso resolva o resultado, mas se o problema não for resolvido, poderia por favor compartilhar seu código completo para investigarmos outras possibilidades.

Bons Estudos.