1
resposta

[Dúvida] Como saber qual número definir para a quantidade de clusters?

estou em dúvida como é feito a definição de qual é o número necessário de clusters para o bom funcionamento do sistema o código que usaram no curso: (na aula foi definido 2 clusters)

np.random.seed(1224)

pca_pipeline = Pipeline([('scaler', StandardScaler()), ('PCA', PCA(n_components=2, random_state=SEED))])
1 resposta

Não existe uma técnica exata para determinar o número ideal de clusters (até porque esse número pode nem sequer existir). O que existem são heurísticas ("chutes"): basicamente você testa vários e avalia qual traz a melhor performance para o problema que você estra tratando.

As maneiras mais conhecidas de se fazer isso são:

PS: Depois de escrever isso tudo sobre agrupamento, vi que você perguntou de clusters mas o código é de definição das componentes do PCA. Não são a mesma coisa tá? O número de componentes do PCA não precisa ser o mesmo número de clusters. Geralmente usam 2 componentes para facilitar a visualização em um gráfico 2D. Mas se quiser escolher melhor o número de componentes, deve olhar a variância explicada e escolher uma quantidade de componentes que explique a maior parte da variância (por exemplo, pelo menos 70%, ou 90%, etc)