Neste caso tenho o mesmo problema que nas demais contas: não enxergo, a aula é pouco descritiva, a transcrição está com imagens que não consigo ler e infelizmente não estou conseguindo entender o conteúdo. Podem me ajudar? Obrigado!
Neste caso tenho o mesmo problema que nas demais contas: não enxergo, a aula é pouco descritiva, a transcrição está com imagens que não consigo ler e infelizmente não estou conseguindo entender o conteúdo. Podem me ajudar? Obrigado!
Oii Pietro, tudo bem contigo? Espero que sim!
Primeiramente peço desculpas pela demora em te dar um retorno por aqui e por você estar com dificuldade em mais um curso de Machine Learning. Estamos trabalhando por aqui para evoluir na questão de acessibilidade dos nossos cursos, mas é um trabalho que demanda tempo e capacitar pessoas. Esse curso teve uma atualização de transcrições, caso você queira reassistir o curso, acredito que o aproveitamento do conteúdo será melhor!
Agora, sobre o índice Calinski-Harabasz, primeiramente é necessário calcularmos o overall within-cluster variance SSw, que se refere à variância geral dentro do cluster SSw, e é dado pela soma dos quadrados das distâncias de cada ponto para o centróide do cluster qual pertence, que na aula a instrutora chama de tr(Wk).
Outra conta necessária de ser feita é o overall between-cluster variance SSb, ou seja a variância geral entre os clusters, que no curso é representado por tr(Bk). O SSb é dado pela diferença entre a soma dos quadrados das distâncias de cada ponto para o centróide do conjunto de dados.
Então o índice Calinski-Harabasz é dado por SSb dividido SSw e o resultado disto é multiplicado por (N - k) dividido por (k -1), onde N é a quantidade de amostras do conjunto de dados e a é a quantidade de clusters. Como N e k são constantes, se SSb for muito maior que SSw (que representa clusters densos e bem separados) o resultado do índice Calinski-Harabasz será alto, caso contrário será próximo de zero.
Qualquer outra dúvida estou a disposição, ok?
Bons estudos ^^