Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Problemas ao realizar a tokenização

from string import punctuation

pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)

pontuacao_stopwords = pontuacao + palavras_irrelevantes

frase_processada = list()
for opiniao in resenha["tratamento_1"]:
    nova_frase = list()
    palavras_text = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

resenha["tratamento_2"] = frase_processada

O tratamento_2 repete a mesma frase para todo o DF. E não trata individualmente cada texto.

3 respostas

Olá Henrique, tudo bem?

Não me ficou muito claro o problema, mas olhando aqui o código está correto. Pode deixar mais claro qual éo problema?

Será que havia resenha["tratamento_1"] estava em cache como uma única frase e acabou repetindo tudo.

Você chegou a rodar todo o noteboo novamente?

Olá, Thiago

Eu já resolvi o problema, mas não consegui encontrar o que era de fato. Eu simplesmente copiei e colei o código que vc deixou disponível pra download e funcionou.

No código que eu fiz o que está logo em cima, ele pegava o tratamento do ultimo filme da resenha["tratamento_1"] e colocava em todos os lugares da resenha["tratamento_2"].

solução!

É então Henrique, provavelmente foi o que comentei!

Você deve ter rodado de alguma forma algo do tipo resenha["tratamento_1"] = uma_frase_qualquer, aí seu tratamento 1 ficou salvo na memória apenas como essa frase e na hora de realizar o tratamento dois vc só fez o tratamento_2 para essa mesma frase. Esses é uma das grandes fontes de erros ao trabalhar com jupyter notebook, como podemos rodar as células de forma independentes acabamos mudando uma variável e nem percebemos.

Quando ocorrer esse tipo de coisa e vc perceber que o código está correto, restarta o notebook e roda tudo novamente, ou vai corrigir o erro ou o erro vai ficar evidente!

Abraços