1
resposta

Erro na tokenizaçao

Olá! Quando tento fazer a tokenização para retirar a pontuação aparece o seguinte erro: "ValueError: Length of values (6509502) does not match length of index (49459)" mas não estou conseguindo corrigir, mesmo copiando exatamente o mesmo código da aula

from string import punctuation

pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)
pontuacao_stopwords = pontuacao + palavras_irrelevantes

frase_processada = list()
for opiniao in resenha["tratamento_1"]:
    nova_frase = list()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
          nova_frase.append(palavra)
          frase_processada.append(' '.join(nova_frase))
resenha["tratamento_2"] = frase_processada

Erro identificado! Indentação incorreta no fim do código :)

  for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
                  nova_frase.append(palavra)
frase_processada.append(' '.join(nova_frase))
resenha["tratamento_2"] = frase_processada
1 resposta

Oii Angela, tudo bem contigo? Espero que sim!

Desculpa a demora em te dar um retorno por aqui!

Fico feliz demais de ter compartilhado conosco a sua dúvida e também a sua solução, já que se mais alguma pessoa tiver esse mesmo problema pode acessar por aqui e ver como você resolveu, é uma ótima prática.

Sempre que tiver alguma dúvida, pode nos chamar! E quando conseguir resolver, continua compartilhando conosco :D

Bons estudos ^^

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software