Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Projeto] Desafio - faça você mesmo

#checando uma amostra aleatória para ter uma noção do que apagar com regex
dados['descricao_vizinhanca'][2000]

#aplicando regex para tirar caracteres especiais
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex = True)
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex = True)

#deixando as letras minúsculas
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()

#tokenizando
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
1 resposta
solução!

Oi, Vinicius! Como vai?

Agradeço por compartilhar seu código com a comunidade Alura.

Sua sequência de códigos mostra um bom cuidado com as etapas de pré-processamento de dados textuais, algo muito comum em tarefas de análise de texto e ciência de dados.

Uma dica interessante para o futuro é usar o metodo str.strip(), que remove espacos extras no inicio e no final das strings após transformacoes de texto. Isso ajuda a deixar os dados ainda mais organizados antes de outras analises.


texto = "   exemplo de frase   "

texto_limpo = texto.strip()

print(texto_limpo)

Nesse exemplo, strip() remove os espacos no inicio e no final da frase, deixando o texto pronto para outras manipulações.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Para saber mais:

Sugestão de conteúdo:

DOCUMENTAÇÃO
strip
Alura

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!