Oii Brenda, tudo certo?
Desculpa a demora em te retornar, mas vamos lá! Esses valores são colocados empiricamente, ou seja, as vezes não temos noção de quanto os pontos estão distantes e fazemos em tentativa e erro essa definição. Alguns pontos interessantes para se lembrar são:
• O eps siginifica distância mínima entre os pontos para que sejam considerados vizinhos. Se for usado um valor muito pequeno, o DBSCAN considera tudo como ruído (-1) e quando usamos um valor muito alto para o eps, o DBSCAN considera tudo como apenas uma cluster (0).
• O parâmetro min_samples significa a quantidade mínima de amostras que cada cluster precisa ter, ou seja, se for colocado o valor 1, cada ponto por si só vai ser considerado um cluster, o que não é inteligente, e se for um número muito grande eles vão ser considerados ruídos também, já que o valor mínimo para que seja uma cluster excede o número de dados que temos.
• Por fim, o metric é a métrica usada para definir como serão feitas as distâncias, por exemplo se é cosseno, linha reta, etc. No scikit-learn nós temos as métricas: ‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’.
Se você ainda estiver com dúvidas sobre esses pontos, pode me chamar, ok?
Bons estudos ^^