1
resposta

Regra matemática para obter k

Olá,

no capítulo 2, seção Regra matemática, a professora usa uma tal de regra matemática para encontrar um k para a clusterização, mas não diz o nome da regra nem traz referências para isso.

Perguntei para a Luri que responde "A aula explica o uso de um modelo matemático para determinar o número ideal de clusters, mas não especifica um nome formal para essa regra."

Pesquisei no Google, revirei vários sites e fóruns, mas não achei nada sobre essa regra.

A Luri complementa "O foco principal é em como a equação funciona para encontrar o ponto de maior distância da reta traçada no gráfico de inércia, que indica o melhor equilíbrio entre homogeneidade dentro do cluster e menor diferença entre clusters."

Isso pode até ter funcionado para o exemplo da aula, mas é realmente difícil de acreditar que essa "regra" está correta para o caso geral dado que não tem fonte/estudo para isso sendo apontado.

Em outro post aqui do fórum (https://cursos.alura.com.br/forum/topico-sugestao-referencia-sobre-regra-matematica-251803) questionam isso, mas não houve nenhum parecer.

Algum instrutor poderia ajudar a sanar esse problema? Questionar a professor? Trazer referências para a regra usada na aula?

1 resposta

Prezado, foi usado uma forma quantitativa do método do cotovelo.

O número ideal de clusters k é aquele cujo ponto no gráfico da inércia (Soma dos Quadrados Intraclusters) tem a maior distância perpendicular até a reta que liga o primeiro ponto (mínimo de clusters testado) ao último ponto (máximo de clusters testado).

Definição dos Pontos

  • P₀ = (x₀, y₀): primeiro ponto do gráfico (menor número de clusters e inércia correspondente)
  • P₁ = (x₁, y₁): último ponto do gráfico (maior número de clusters e inércia correspondente)
  • Pᵢ = (xᵢ, yᵢ): ponto referente a k = kᵢ clusters e sua inércia

Fórmula da distância ponto–reta

d = ( ∣(y1-y0)⋅x-(x1-x0)⋅y+x1y0-y1x0∣ ) / √( (y1-y0)^2+(x1-x0)^2 )

O k ótimo será o que tiver o maior valor de d.

Neste artigo você encontra uma boa abordagem sobre o assunto:
https://medium.com/pizzadedados/kmeans-e-metodo-do-cotovelo-94ded9fdf3a9

Também tem esse outro artigo que achei interessante:
https://builtin.com/data-science/elbow-method

Espero ter ajudado!