Não entendi direito o que essa função faz ele disse que o chefe dele o informou que existem de 2 a 4 grupos de consumidores de vinhos o k-means atribuiu esses valores de 0 a 3 de forma aleatória? E o que esses valores significam?
Não entendi direito o que essa função faz ele disse que o chefe dele o informou que existem de 2 a 4 grupos de consumidores de vinhos o k-means atribuiu esses valores de 0 a 3 de forma aleatória? E o que esses valores significam?
Olá, Guilherme! Tudo bem com você?
O kmeans é um algoritmo de clusterização que possui como objetivo agrupar as amostras que possuem características semelhantes. Esse processo de clusterização é uma ótima ferramenta para análise de dados, segmentação de clientes, sistemas de recomendação.
Esses valores de 0 a 3 que foram atribuídos a cada amostra são os clusters a que uma pertence. O algoritmo faz uma análise de distância entre as características das amostras e agrupam as que possuem menores distâncias entre si, o que significa que essas amostras "se parecem". Então os cluster não são atribuídos de forma aleatória.
Por exemplo as 4 primeiras amostras mostradas em 1:12 da aula pertencem ao cluster 2, isso significa que essas 4 primeiras amostras possuem características parecidas entre si, que poderíamos agrupa-las.
Caso queira entender melhor como o algoritmo funciona sugiro as seguintes leitura:
Espero ter ajudado, mas se ainda persistir alguma dúvida estou sempre à disposição.
:)
Obrigado, Bruno Ajudou bastante No caso ele leva em consideração quais característica para agrupar em um mesmo grupo?
Olá, Guilherme.
O kmeans irá considerar todas as características do conjunto de dados df, ou seja, está agrupando de acordo com todas as colunas do DataFrame. Isso foi feito quando o instrutor executou os seguintes comandos:
from sklearn.cluster import KMeans
agrupador = KMeans(n_clusters=4)
agrupador.fit(df)
entendi Obrigado!