Solução: DBSCAN considera tudo como ruído (-1) | Clustering: k-means, DBSCAN e mean shift

3
respostas

Referente ao curso Clustering: k-means, DBSCAN e mean shift, no capítulo DBSCAN e atividade Exemplo de Introdução ao DBSCAN

por Thalles Rafael da Silva Correia

| 214.7k xp | 15 posts

Vi uma outra solução dada para esse problema aqui setando o "eps" para um valor maior. Uma outra solução, seria utilizar a base normalizada para treinar o algortimo (isso, na verdade, é o que gera discrepância entre os labels obtidos pelo instrutor e para quem segue a aula).

from sklearn.cluster import DBSCAN
agrupador = DBSCAN(eps = 1.31, min_samples = 15, metric = 'manhattan')
agrupador.fit(df_normalizado)

array([ 0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0, -1,  0, -1,  0, -1,  0, -1,  0,  0,  0,  0, -1,
        0,  0,  0,  0,  0,  0,  0,  0, -1, -1, -1, -1, -1, -1, -1, -1,  1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1, -1, -1, -1,
        1, -1, -1, -1, -1,  1,  1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,
       -1,  1,  1, -1,  1,  1,  1, -1, -1, -1, -1, -1, -1, -1,  1,  1, -1,
        1, -1, -1, -1, -1, -1,  1, -1, -1, -1, -1, -1,  2, -1,  2, -1,  2,
       -1, -1,  2, -1, -1,  2, -1, -1,  2,  2, -1,  2,  2,  2, -1, -1, -1,
        2, -1,  2,  2, -1, -1, -1,  2,  2,  2,  2,  2, -1,  2,  2,  2, -1,
        2,  2,  2,  2,  2,  2,  2,  2], dtype=int64)

3 respostas

por João Vitor de Miranda

| 1481.1k xp | 1891 posts

Instrutor

02/06/2022

Olá Thalles, tudo bem? Espero que sim!

É sempre bom utilizar a base de dados normalizada para algoritmos de agrupamento, para que as distâncias a serem calculadas não sejam muito influenciadas por variáveis com a escala maior.

Além disso, é uma boa ideia ajustar o épsilon para outros valores até conseguir um resultado satisfatório. Um épsilon muito baixo vai fazer com que os dados não sejam agrupados e um épsilon muito alto vai fazer com que todos os dados façam parte de um mesmo grupo. É interessante achar um valor de equilíbrio.

Bons estudos!

por CLAUDIA SANTOS DE OLIVEIRA BANDEIRA

| 85.8k xp | 24 posts

05/06/2022

Funcionou normalizar novamente os dados. Didática ruim ... vídeos com cortes e acaba cortando pontos importantes para passar para os alunos e ficamos perdidos sem entender. Complicado assim.

por Thalles Rafael da Silva Correia

| 214.7k xp | 15 posts

05/06/2022

Exatamente, Joao Vitor. Eu disse que vi algumas solucoes de pessoas alterando o epsilon para chegar na resposta do instrutor. Mas que o resultado correto seria obtido ao normalizar novamente os dados (os quais foram desnormalizados pelo instrutor em um passo anterior e gerava discrepancia no resultado de alguns colegas que recorreram ao forum). Assim como consta o codigo postado em seguida.

Grato.