1
resposta

Desafio: faça você mesmo

dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()

dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)

dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()

dados.head()
1 resposta

Ei, Marcia!

Você está no caminho certo para realizar a tokenização da coluna descricao_vizinhanca, parabéns!

Se você quiser aprimorar ainda mais, pode considerar remover stopwords, que são palavras comuns que geralmente não adicionam muito significado, como "e", "ou", "mas". Para isso, você pode usar bibliotecas como nltk para ajudar na remoção dessas palavras.

Seu desenvolvimento e nítido, parabéns por tanta dedicação aos estudos!

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!