Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

índice Calinski-Harabasz

Neste caso tenho o mesmo problema que nas demais contas: não enxergo, a aula é pouco descritiva, a transcrição está com imagens que não consigo ler e infelizmente não estou conseguindo entender o conteúdo. Podem me ajudar? Obrigado!

1 resposta
solução!

Oii Pietro, tudo bem contigo? Espero que sim!

Primeiramente peço desculpas pela demora em te dar um retorno por aqui e por você estar com dificuldade em mais um curso de Machine Learning. Estamos trabalhando por aqui para evoluir na questão de acessibilidade dos nossos cursos, mas é um trabalho que demanda tempo e capacitar pessoas. Esse curso teve uma atualização de transcrições, caso você queira reassistir o curso, acredito que o aproveitamento do conteúdo será melhor!

Agora, sobre o índice Calinski-Harabasz, primeiramente é necessário calcularmos o overall within-cluster variance SSw, que se refere à variância geral dentro do cluster SSw, e é dado pela soma dos quadrados das distâncias de cada ponto para o centróide do cluster qual pertence, que na aula a instrutora chama de tr(Wk).

Fórmula da variância geral dentro do cluster, chamada de SSw, com um somatório de i variando de 1 a k, do somatório de x pertencente ao conjunto i, d dos valores absolutos, ao quadrado, de x menos o valor de m em i

Outra conta necessária de ser feita é o overall between-cluster variance SSb, ou seja a variância geral entre os clusters, que no curso é representado por tr(Bk). O SSb é dado pela diferença entre a soma dos quadrados das distâncias de cada ponto para o centróide do conjunto de dados.

Fórmula da variância geral entre os clusters, chamada de SSb, com um somatório de i variando de 1 a k, do somatório de x pertencente ao conjunto i, d dos valores absolutos, ao quadrado, de x menos o valor de c. Toda essa conta, menos o SSw, é o valor final de SSb

Então o índice Calinski-Harabasz é dado por SSb dividido SSw e o resultado disto é multiplicado por (N - k) dividido por (k -1), onde N é a quantidade de amostras do conjunto de dados e a é a quantidade de clusters. Como N e k são constantes, se SSb for muito maior que SSw (que representa clusters densos e bem separados) o resultado do índice Calinski-Harabasz será alto, caso contrário será próximo de zero.

Qualquer outra dúvida estou a disposição, ok?

Bons estudos ^^

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!