1
resposta

Identificando clusters

Oi, boa tarde!

Seguindo o exemplo do curso, como consigo listar quais clientes (CUST_ID) que compõe determinado cluster?

Abraço!

1 resposta

Olá, Evandro! Tudo tranquilo por aí?

Primeiramente gostaria de pedir desculpas pela demora em te responder.

Há algumas abordagens de como você pode fazer isso, vou mostrar uma delas aqui e caso não seja exatamente o que procura, peço que entre novamente em contato por aqui informando mais alguns detalhes a respeito, tudo bem?

Inicialmente lembramos que nesse trecho de código abaixo, executado na aula 02. Obtendo os clusters, são retiradas as colunas CUST_ID e TENURE.


dataframe.drop(columns=['CUST_ID', 'TENURE'], inplace=True)

Precisamos portanto obter novamente a coluna CUST_ID com a qual você quer trabalhar e faremos isso com a importação dos dados.

1. Obtendo CUST_ID:


url = "https://raw.githubusercontent.com/alura-cursos/alura-clustering-validation/base-de-dados/CC%20GENERAL.csv"
dataframe_aux = pd.read_csv(url)  # lendo a url com o arquivo csv
cust_id = dataframe_aux['CUST_ID']  # Pegando somente a coluna CUST_ID
cust_id.head()  # # Mostrando as 5 primeiras linhas de cust_id

Saída:

CUST_ID
0C10001
1C10002
2C10003
3C10004
4C10005

Nessa aula é executada a clusterização com o KMeans, depois de feita a clusterização é executado o seguinte comando nessa aula: labels = kmeans.labels_. Mas o que seriam esses labels? São os rótulos, ou melhor, seriam os clusters de cada amostra/linha do conjunto de dados. Para dar uma olhada com mais detalhes, consultar a documentação.

Ótimo, então temos os CUST_ID e temos os clusters de cada amostra/linha. Agora é só criar o DataFrame.

2. Criando o DataFrame:

df_final = pd.DataFrame(data = {'CUST_ID': cust_id, 'cluster': labels})
df_final.head()

Saída:

CUST_IDcluster
0C100010
1C100021
2C100030
3C100040
4C100052

Espero ter ajudado, mas se tiver alguma dúvida estou sempre à disposição.

:)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!