Por que precisa iterar sobre as stop words novamente no tratamento 2?

Quando vamos fazer o tratamento 2 para remover as pontuações, usamos a coluna do tratamento 1 como base para executar a tarefa, na qual já havíamos removido as stop words. A minha pergunta é porque precisamos verificar se as palavras não estão em pontuacao + stop_words e não somente em pontuacao. Obrigada desde já :)

O trecho é esse aqui:

pontuacao_stop_words = pontuacao + palavras_irrelevantes
frase_processada = list()
for opiniao in resenha.tratamento_1:
    nova_frase = list()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stop_words:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

Olá, Júlia! Tudo bem?

A segunda verificação é uma medida de segurança para garantir a limpeza completa dos dados. Se não incluirmos as stop words na verificação do tratamento 2, elas podem voltar para o texto e atrapalhar a análise de sentimentos.

Em outras palavras, é uma verificação adicional durante o pré-processamento de texto para assegurar que todos os elementos indesejados (como stop words e pontuações) sejam removidos de forma eficaz. É como um "pente fino" para garantir que o texto esteja realmente limpo e pronto para ser analisado.

Espero ter ajudado! Sucesso nos estudos!

Abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP