1
resposta

Entendimento da explicação matemática de davies-boudin

Aqui tenho o mesmo problema que no silhouette : a didática é muito visual e a transcrição tem imagens, impossibilitando eu de ler e entender sem enxergar, já que sou cego. Podem me ajudar? Obrigado

1 resposta

Olá Pietro, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

O índice de Davies-Bouldin serve para checarmos se os clusters estão bem separados e bem compactos. Quanto mais próximo de 0, melhor serão os clusters.

Para encontrarmos o índice Davies-Bouldin (DB), precisamos tirar a média da soma dos máximos das medidas de similaridade (R_i_j) de cada cluster. A fórmula do índice é dada por DB igual ao quociente com numerador sendo o somatório dos máximos das medidas de similaridades (R_i_j) de cada cluster e denominador sendo a quantidade de clusters definido por k.

Para encontrarmos a medida de similaridade precisamos entender o conceito de centróide, que será definido pelo centro de cada cluster, sendo a média dos valores dos pontos x e dos pontos y de cada elemento do cluster.

A medida de similaridade R_i_j que se encontra dentro do somatório, corresponde ao quociente entre a soma de s_i e s_j por d_i_j. Os valores de i e j são os índices dos clusters, que possuem valor máximo igual a quantidade de clusters. Esses valores precisam ser distintos, uma vez que fazemos a comparação de um cluster com o outro.

Os valores de s_i e s_j representam a compactação interna dos clusters, obtidos através da média entre as distâncias de cada elemento do cluster ao seu centróide. Portanto, caso um cluster tenha 3 pontos, devemos fazer a distância de cada um dos pontos até o centróide e depois retirar a média dessas distâncias.

O valor d_i_j representa a separação entre dois clusters, obtido através da distância entre os centróides de dois clusters.

Agora vamos ao exemplo dado na aula:

Na aula Matemática do Davies-Bouldin, há 3 clusters e cada um desses clusters possuem 3 elementos.

Para encontrar o índice de Davies-Bouldin, precisamos encontrar a medida de similaridade R_i_j de cada um dos pares de clusters. Nomeando os 3 clusters como 0, 1 e 2, precisa ser realizado o cálculo de R_0_1, R_0_2 e R_1_2.

Para se chegar ao valor de R_0_1, precisamos calcular s_0 e s_1, que correspondem a média das distâncias entre os pontos do cluster 0 e do centróide 0 e a média das distâncias entre os pontos do cluster 1 e do centróide 1, respectivamente. Além disso, precisamos calcular o valor de d_0_1, que corresponde ao valor da distância entre o centróides dos clusters 0 e 1.

Os cálculos para R_0_2 e R_1_2 são obtidos de maneira análoga.

Conseguindo todos os valores de R_i_j, teremos que obter os valores máximos de medidas de similaridade para cada um dos clusters e depois fazer a soma desses máximos.

No exemplo da aula, R_0_1 = 0.23, R_0_2 = 0.61 e R_1_2 = 0.20.

Primeiramente vamos analisar o máximo do cluster 0. Serão comparados os valores R_0_1 e R_0_2, e o valor máximo é de 0.61. Após isso, analisamos o máximo do cluster 1. Serão comparados os valores R_0_1 e R_1_2, e o valor máximo é 0.23. De forma análoga, analisamos o máximo do cluster 2 e obtemos que o valor máximo é 0.61. Esses valores máximos serão somados e divididos pela quantidade de clusters, obtendo assim o índice de Davies-Bouldin.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!