Até onde sei o algoritmo de K-MEANS não trabalha com MAE nem MSE. Isso porque em geral os algoritmos de clustering tentam minimizar a variability como um todo e não como uma medida média. A variability é o somatório das distancias ao quadrado dos pontos de um cluster até o seu centroide. O valor não é dividido pelo numero de elementos dentro do cluster, para achar uma média.
O objetivo disso é penalizar clusters que são grandes e incoerentes mais do que de clusters pequenos e incoerentes.
What we are calling variability is quite similar to the notion of variance presented
in Chapter 15. The difference is that variability is not normalized by the
size of the cluster, so clusters with more points are likely to look less cohesive according
to this measure...
...
Notice that since we don’t divide the variability by the size of the cluster, a large
incoherent cluster increases the value of dissimilarity(C) more than a small incoherent
cluster does. This is by design.
Introduction to Computation and Programming Using Python