etapa é a padronização. Em análise de dados, nomes "sujos" (com números ou símbolos) impedem agrupamentos corretos, e textos repetitivos e desnecessários poluem o DataFrame.
Para resolver a Etapa 3,
Projeto Desafio 1: Vendas Online
Objetivo: Limpar os nomes dos clientes (letras minúsculas, sem números e sem caracteres especiais).
import pandas as pd
(Supondo que você já carregou e fez o explode/astype das etapas anteriores)
df_vendas = ...
1. Transformar para minúsculas
df_vendas['Cliente'] = df_vendas['Cliente'].str.lower()
2. Remover números e caracteres especiais usando Regex
O padrão [^a-z\s] significa: mantenha apenas letras de 'a' a 'z' e espaços.
O que não for isso, será substituído por nada ('')
df_vendas['Cliente'] = df_vendas['Cliente'].str.replace('[^a-z\s]', '', regex=True)
3. Remover espaços extras no início ou fim (trim)
df_vendas['Cliente'] = df_vendas['Cliente'].str.strip()
display(df_vendas.head())