1
resposta

Linhas duplicadas ao final do processo

Ao final dessa seção, restam linhas duplicadas de clientes (que deveriam ser únicos):

df_final['Id_unico_cliente'].value_counts()
df_final.tail()

Para resolver esse problema, basta executar essa linha:

df_final.drop_duplicates(subset='Id_unico_cliente', keep='last', inplace=True)

E aí sim persistir o arquivo final em disco:

df_final.to_csv('RFM.csv.bz2', index=False)
1 resposta

Oi Rodrigo! Tudo bem com você? Espero que sim!

Muito bacana sua solução, muito legal também o uso dos parâmetros em drop_duplicates, parabéns!

Obrigada por compartilhar sua solução aqui no fórum ^^

Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software