[Projeto] manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

etapa é a padronização. Em análise de dados, nomes "sujos" (com números ou símbolos) impedem agrupamentos corretos, e textos repetitivos e desnecessários poluem o DataFrame.

Para resolver a Etapa 3,

Projeto Desafio 1: Vendas Online
Objetivo: Limpar os nomes dos clientes (letras minúsculas, sem números e sem caracteres especiais).

import pandas as pd

(Supondo que você já carregou e fez o explode/astype das etapas anteriores)

df_vendas = ...

1. Transformar para minúsculas

df_vendas['Cliente'] = df_vendas['Cliente'].str.lower()

2. Remover números e caracteres especiais usando Regex

O padrão [^a-z\s] significa: mantenha apenas letras de 'a' a 'z' e espaços.

O que não for isso, será substituído por nada ('')

df_vendas['Cliente'] = df_vendas['Cliente'].str.replace('[^a-z\s]', '', regex=True)

3. Remover espaços extras no início ou fim (trim)

df_vendas['Cliente'] = df_vendas['Cliente'].str.strip()

display(df_vendas.head())

Oi, Moacir! Como vai?

Agradeço por compartilhar seu código com a comunidade Alura.

Você estruturou bem a limpeza dos dados, seguindo uma sequência lógica com lower(), uso de regex e finalizando com strip(). Nota-se um cuidado com a padronizacao dos dados, algo muito importante para garantir analises consistentes.

Uma dica interessante para o futuro é usar o método str.normalize() em conjunto com encode/decode para remover acentos, deixando os dados ainda mais padronizados. Veja este exemplo:


import unicodedata

df_vendas['cliente'] = df_vendas['cliente'].apply(
    lambda x: unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8')
)

Esse codigo remove acentos dos textos, facilitando comparações e agrupamentos.

Voce ja pensou em como esses dados poderiam impactar um agrupamento por cliente antes e depois dessa limpeza?

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Para se aprofundar no tema:

ARTIGO

pandas.Series.str.normalize

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Importante

[Projeto] manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

(Supondo que você já carregou e fez o explode/astype das etapas anteriores)

df_vendas = ...

1. Transformar para minúsculas

2. Remover números e caracteres especiais usando Regex

O padrão [^a-z\s] significa: mantenha apenas letras de 'a' a 'z' e espaços.

O que não for isso, será substituído por nada ('')

3. Remover espaços extras no início ou fim (trim)

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

(Supondo que você já carregou e fez o explode/astype das etapas anteriores)

df_vendas = ...

1. Transformar para minúsculas

2. Remover números e caracteres especiais usando Regex

O padrão [^a-z\s] significa: mantenha apenas letras de 'a' a 'z' e espaços.

O que não for isso, será substituído por nada ('')

3. Remover espaços extras no início ou fim (trim)

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP