1
resposta

Código Incompleto

Se chegou a esses parâmetros também fazendo uso do coeficiente de silhueta? Não há um vídeo de como se chegou aos parâmetros do DBSCAN. Poderia disponibilizar o código, por favor?

agrupador_DBSCAN = DBSCAN (eps =2.1, min_samples= 56, metric= "manhattan")
1 resposta

Oii Brenda, tudo certo?

Desculpa a demora em te retornar, mas vamos lá! Esses valores são colocados empiricamente, ou seja, as vezes não temos noção de quanto os pontos estão distantes e fazemos em tentativa e erro essa definição. Alguns pontos interessantes para se lembrar são:

• O eps siginifica distância mínima entre os pontos para que sejam considerados vizinhos. Se for usado um valor muito pequeno, o DBSCAN considera tudo como ruído (-1) e quando usamos um valor muito alto para o eps, o DBSCAN considera tudo como apenas uma cluster (0).

• O parâmetro min_samples significa a quantidade mínima de amostras que cada cluster precisa ter, ou seja, se for colocado o valor 1, cada ponto por si só vai ser considerado um cluster, o que não é inteligente, e se for um número muito grande eles vão ser considerados ruídos também, já que o valor mínimo para que seja uma cluster excede o número de dados que temos.

• Por fim, o metric é a métrica usada para definir como serão feitas as distâncias, por exemplo se é cosseno, linha reta, etc. No scikit-learn nós temos as métricas: ‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’.

Se você ainda estiver com dúvidas sobre esses pontos, pode me chamar, ok?

Bons estudos ^^