1
resposta

Apareceram alguns ngrams nas 50 primeiras

Professor, não sei se quando você rodou o código que exibe os 50 maiores/menores pesos, a variável de regressão logística estava armazenando os valores do TfidVectorizer sem o parametro de ngrams ligado e por isso não apareceu pra você.

Pra mim apareceram: Maiores pesos: "melhor film" "bem feit" "prim vez" "10 10"

Menores pesos: "pi film" "perd temp" "tao ruim"

1 resposta

Olá Phelipe, obrigado pelo feedback!

Ali na verdade o que estamos fazendo é mesclar tanto o ngram quanto o texto original, a frequência dos ngrams é menor e por isso fica lá para longe das primeiras posições!

Parabéns pela observação e pela curiosidade de explorar melhor o código!

Att.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software