2
respostas

explicação matemática da validação do clustering

    Não consegui acompanhar a explicação matemática. Sou cego e as fórmulas matemáticas estão em forma de imagem na transcrição do         vídeo, impossibilitando minha leitura. Também no vídeo, a linguagem é pouco descritiva. Poderiam me ajudar? Gosto sobremaneira de exatas, mas tenho essa dificuldade quanto a material e didáticas inclusivas.

Obrigado!

2 respostas

Boa noite Pietro, tudo bem com você?

Peço desculpas pelo ocorrido, já solicitamos para o time de Transcrição dar uma atenção para a descrição das imagens desse curso. Para não impactar a continuidade dos seus estudos, trouxe a baixo uma transcrição prévia da atividade Matemática do Silhouette com a descrição das imagens.

Início da transcrição.

Temos a fórmula para calcular o coeficiente que se baseia em dois principais valores: beta e alfa.

título Coeficiente de Silhouette
s igual início de fração, numerador: abre parênteses beta menos alfa fecha parênteses dividido por denominador: função max abre parênteses alfa, beta fecha parênteses fim da fração.

Começaremos por calcular o valor de alfa, isto é, a distância média entre o ponto e todos os outros pontos do mesmo cluster. Vamos verificar a compactação dos elementos.

Utilizaremos o mesmo exemplo dos três clusters, e cada um contém três elementos.

Título Compactação
gráfico Plano cartesiano. Escala de X na horizontal: zero, um, dois. Escala de Y na vertical zero, 1, 2, 3, 4.
Primeira circunferência com borda verde e sem cor de preenchimento. Localização no gráfico: no eixo X está entre os pontos (0,75 e 1,50) e no eixo Y entre os pontos (1,50 e 2,25). No interior da circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor verde.
Segunda circunferência com borda amarela e sem cor de preenchimento. Localização no gráfico: no eixo X está entre os pontos (1,90 e 2,5) e no eixo Y entre os pontos (0,25 e 1,90). No interior da circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor amarela.
Terceira circunferência com borda vermelha e sem cor de preenchimento. Localização no gráfico: no eixo X está entre os pontos (1,90 e 2,5). E no eixo Y: entre os pontos (0,25 e 1,90). No interior desta circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor vermelha.

Nos basearemos em duas dimensões(x,y), e utilizaremos dois atributos dos 16 que temos disponíveis em nosso dataframe.

Selecionaremos um ponto específico, um cliente, e a partir dele calcularemos a média para outros elementos do cluster. Chamaremos este primeiro ponto de "A".

Para o eixo x utilizaremos o valor de 1,0 e para y 0,9. Feito isso, mediremos a distância do ponto "A" para o ponto "B" e "C"

gráfico Plano cartesiano. Eixo x com escala: 0, 1, 2. Eixo Y com escala: 0, 1, 2, 3, 4.
Primeira circunferência com borda verde e sem cor de preenchimento, localização no gráfico: no eixo X está entre os pontos (0,75 e 1,50) e no eixo Y entre os pontos (1,50 e 2,25). No interior da circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor verde. Agora cada cliente recebe uma letra que representa o ponto no plano cartesiano. Cliente com ponto A: coordenadas x igual a 1,0 e y igual a 0,9. Cliente com ponto B: coordenadas x igual a 1,0 e y igual a 1,7 . Cliente com ponto C: coordenadas x igual a 1,3 e y igual a 1,5. Ponto A está ligado ao ponto B por um segmento de reta. Ponto A está ligado ao ponto C por um segmento de reta.

Estamos utilizando a distância euclidiana, portanto usaremos sua fórmula.

Título Distância Euclidiana
Distância entre os pontos A e B é igual a raiz quadrada de abre parênteses coordenada x do ponto B - coordenada x do ponto A fecha parênteses tudo isso elevado ao quadrado mais abre parênteses coordenada y do ponto B menos coordenada y do ponto A fecha parênteses tudo isso elevado ao quadrado. fim do radiando.
função matemática com os valores respectivos para calcular a distância entre os pontos A e B é igual a raiz quadrada de abre parênteses 1 - 1 fecha parênteses tudo isso elevado ao quadrado mais abre parênteses 1,7 menos 0,9 fecha parênteses tudo isso elevado ao quadrado. fim do radiando.

Pausa na transcrição.

Pietro, vou dividir em duas respostas porque existe uma limitação de caracteres nos posts.

Continuação da transcrição.

O resultado dos cálculo será de, 0,8. Essa é a distância Euclidiana entre A e B. Faremos o mesmo procedimento para C. A distância entre o ponto A e C é 1,12.

Feito isso, obteremos a média entre os dois valores finais, o resultado é 0,96. Voltaremos a fórmula do coeficiente de silhoette que apresentamos no início da aula e inseriremos esse valor na variável alfa.

Nosso próximo passo é calcular o valor de beta, que é a distância média entre o ponto e todos os outros pontos do cluster mais próximo.

Para sabermos qual é o cluster mais próximo, deveremos tirar a média entre os pontos para os dois clusters e coletar o menor valor. Faremos o mesmo procedimento que realizamos anteriormente, mas com pontos diferentes.

gráfico Plano cartesiano. Eixo x com escala: 0, 1, 2. Eixo Y com escala: 0, 1, 2, 3, 4.
Primeira circunferência com borda verde e sem cor de preenchimento, localização no gráfico: no eixo X está entre os pontos (0,75 e 1,50) e no eixo Y entre os pontos (1,50 e 2,25). No interior da circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor verde. Cliente com ponto A: coordenadas x igual a 1,0 e y igual a 0,9.
Segunda circunferência com borda vermelha e sem cor de preenchimento, localização no gráfico: no eixo X está entre os pontos (1,90 e 2,5). E no eixo Y: entre os pontos (0,25 e 1,90). No interior desta circunferência estão três emoticons representando clientes. Cada um dos três clientes está com um fundo redondo na cor vermelha. Agora cada cliente recebe uma letra que representa o ponto no plano cartesiano. Cliente com ponto D: coordenadas x igual a 1,3 e y igual a 3,9. Cliente com ponto E: coordenadas x igual a 1,5 e y igual a 4,3 . Cliente com ponto F: coordenadas x igual a 1,6 e y igual a 3,7. Ponto A está ligado por um segmento de reta ao ponto D. Ponto A está ligado por um segmento de reta ao ponto E. Ponto A está ligado por um segmento de reta ao ponto F.

chegaremos ao resultado final de 3,1 do ponto A dos pontos do cluster vermelho. Para o cluster amarelo o resultado será de 1,31. A menor distância é o segundo cluster, como podemos verificar.

título Coeficiente de Silhouette
s igual início de fração, numerador: abre parênteses 1,31 menos 0,96 fecha parênteses dividido por denominador: função max abre parênteses 0,96, 1,31 fecha parênteses fim da fração.

O resultado final será de 0,26. O resultado sempre está entre 1 e -1, então neste caso temos um bom valor positivo.

Fim da transcrição.

Espero ter ajudado, mas qualquer coisa é só mandar mensagem viu?!

Abraço e bons estudos.