0
respostas

[Dúvida] Avaliação da resposta sobre o desafio da tokenização

Olá,

Tudo bem?

Esta forma de resolução que desenvolvi está correta?

# Transformação em letras minúsculas e remoção de caracteres especiais (regex) e atribuição das alterações para o dataframe:
dados["descricao_vizinhanca"] = dados["descricao_vizinhanca"].str.lower().replace(r'[^\w\s]', ' ', regex=True)

# Tokenização de strings (divisão dos elementos textuais da lista)
dados["descricao_vizinhanca"] = dados["descricao_vizinhanca"].str.split()

Obrigada.