Problemas ao realizar a tokenização

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

3
respostas

por Henrique Magno Ferreira Longatti

| 154.1k xp | 9 posts

from string import punctuation

pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)

pontuacao_stopwords = pontuacao + palavras_irrelevantes

frase_processada = list()
for opiniao in resenha["tratamento_1"]:
    nova_frase = list()
    palavras_text = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

resenha["tratamento_2"] = frase_processada

O tratamento_2 repete a mesma frase para todo o DF. E não trata individualmente cada texto.

3 respostas

por Thiago G Santos

| 125.2k xp | 134 posts

Instrutor

18/02/2020

Olá Henrique, tudo bem?

Não me ficou muito claro o problema, mas olhando aqui o código está correto. Pode deixar mais claro qual éo problema?

Será que havia resenha["tratamento_1"] estava em cache como uma única frase e acabou repetindo tudo.

Você chegou a rodar todo o noteboo novamente?

por Henrique Magno Ferreira Longatti

| 154.1k xp | 9 posts

19/02/2020

Olá, Thiago

Eu já resolvi o problema, mas não consegui encontrar o que era de fato. Eu simplesmente copiei e colei o código que vc deixou disponível pra download e funcionou.

No código que eu fiz o que está logo em cima, ele pegava o tratamento do ultimo filme da resenha["tratamento_1"] e colocava em todos os lugares da resenha["tratamento_2"].

solução!

por Thiago G Santos

| 125.2k xp | 134 posts

Instrutor

19/02/2020

É então Henrique, provavelmente foi o que comentei!

Você deve ter rodado de alguma forma algo do tipo resenha["tratamento_1"] = uma_frase_qualquer, aí seu tratamento 1 ficou salvo na memória apenas como essa frase e na hora de realizar o tratamento dois vc só fez o tratamento_2 para essa mesma frase. Esses é uma das grandes fontes de erros ao trabalhar com jupyter notebook, como podemos rodar as células de forma independentes acabamos mudando uma variável e nem percebemos.

Quando ocorrer esse tipo de coisa e vc perceber que o código está correto, restarta o notebook e roda tudo novamente, ou vai corrigir o erro ou o erro vai ficar evidente!

Abraços

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP