Ainda não tem acesso? Estude com a gente! Matricule-se
Ainda não tem acesso? Estude com a gente! Matricule-se

Não apareceram Ngrams nos resultados pq não usamos nos dados!

Olhando o código do capítulo 04 Ngrams, no final do capítulo, foi dito que não aparecem Ngrams nas primeiras 50 posições dos resultados. No bloco de código imediatamente anterior, foi dado um regressao_logistica.fit() com os dados sem Ngrams, e por isso não aparecem nos resultados.

Estou correto nesse raciocínio?

2 respostas
tfidf = TfidfVectorizer(lowercase=False)
vetor_tfidf = tfidf.fit_transform(resenha['tratamento5'])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
                                                              resenha['classificacao'],
                                                              random_state = 42)

lr = LogisticRegression()
lr.fit(treino,classe_treino)
acuracia_tfidf = lr.score(teste,classe_teste)

acuracia_tfidf

verdade, o instrutor removeu os n_grams quando ele criou o TfidfVectorizer no ultimo exemplo

Olá Simon.

Exatamente, você está correto, como o instrutor rodou o tfidf por ultimo sem o Ngrams, quando ele visualiza o DataFrame eles não estão lá.

Para visualizar eles, basta rodar o bloco que utiliza o Ngrams e depois imprimir o DataFrame, comigo consegui visualizá-los nas 50 primeiras posições e nas 50 ultimas, alguns exemplos foram:

Positivos:

  • melhor film
  • bem feit
  • dev ver

Negativos:

  • pi film
  • tao ruim
  • perd temp

Obrigado por avisar sobre isso, vamos pensar em alguma solução para passar essa informação para os próximos alunos.

Bons Estudos.