Olá Pietro, tudo bem? Espero que sim!
Desculpe pela demora em retornar.
O índice B_k faz parte do índice de Calinski-Harabasz e corresponde a dispersão dos elementos entre clusters. Ele é definido pelo somatório do produto de três termos: o primeiro termo é a quantidade de elementos no cluster (n_q), o segundo termo é a matriz da diferença dos centróides dos clusters pelos centróides de todos os elementos (c_q menos c_e) e o terceiro termo é a transposta da matriz dada no segundo termo (transposta de c_q menos c_e).
O valor de c_e é definido como o centróide de todos os elementos do conjunto de dados, calculado através da média entre os valores de X e de Y de todos os elementos. O valor de c_q é definido pelo centróide dos elementos do cluster q, com q variando de 1 até a quantidade total de clusters.
O resultado da subtração das coordenadas de c_q por c_e será um vetor unidimensional em coluna e, por conta disso, a transposta será um vetor unidimensional em linha. A multiplicação de ambos os vetores resultará em uma matriz quadrada com linhas e colunas equivalentes à quantidade de coordenadas.
No caso do exemplo mostrado em aula, foi dado um banco de dados com coordenadas em um plano bidimensional, de coordenadas X e Y e por isso, a matriz resultante da multiplicação de cada termo foi uma matriz 2 por 2.
Como o índice de Calinski-Harabasz só aproveita o traço, ou seja, a soma dos elementos da diagonal principal da matriz B_k, a instrutora só buscou calcular os valores da diagonal principal na aula. Essas matrizes serão sempre multiplicadas pelo valor de n_q e depois somadas uma a uma.
Caso você queira acompanhar os cálculos dos exemplos da aula Matemática do Calinski (Parte 3) que explora mais a equação de B_k, a transcrição foi atualizada e pode te trazer um aproveitamento bem melhor de como a instrutora fez cada cálculo.
Espero que tenha tirado sua dúvida.
Estou à disposição. Bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!