Aqui deu "inf" para perplexidade:
print(modelo_port.perplexity(palavras_bigramns[0]))
print(modelo_port.perplexity(palavras_bigramns[1]))
inf inf
Aqui deu "inf" para perplexidade:
print(modelo_port.perplexity(palavras_bigramns[0]))
print(modelo_port.perplexity(palavras_bigramns[1]))
inf inf
Olá Paulo, tudo bem ?
Desculpa pela demora no retorno.
Quando o valor da perplexidade é inf pode indicar que temos uma palavra que o modelo não aprendeu isso porque a perplexidade é a inversa da probabilidade, então se o modelo não conhece a palavra a probabilidade é zero e a perplexidade é infinita. Como foi explicado nesta aula.
Então uma sugestão para resolver esse resultado é verificar a variável palavras_bigramns está igual a da aula.
texto = "good morning"
palavras = WhitespaceTokenizer().tokenize(texto)
palavras_fakechar = [list(pad_both_ends(palavra, n = 2)) for palavra in palavras]
palavras_bigramns = [list(bigrams(palavra)) for palavra in palavras_fakechar]
print(palavras_bigramns)
Resultado:
[[('<s>', 'g'), ('g', 'o'), ('o', 'o'), ('o', 'd'), ('d', '</s>')], [('<s>', 'm'), ('m', 'o'), ('o', 'r'), ('r', 'n'), ('n', 'i'), ('i', 'n'), ('n', 'g'), ('g', '</s>')]]
Espero que isso resolva o resultado, mas se o problema não for resolvido, poderia por favor compartilhar seu código completo para investigarmos outras possibilidades.
Bons Estudos.