1
resposta

Utilizando reducação de dimensionalidade para visualizar os dados agrupados.

Eu acabei de assistir a aula dois e achei as visualizações confusas utilizando apenas dois ou três atributos, além do fato de que perdemos todas informações dos outros atributos, o que pode nos levar a conclusões erradas.

Como este curso vem logo após o curso sobre dados multidimensionais na formação de Machine Learning achei que seria interessante utilizar alguma técnica como o PCA ou TSNE ensinadas no curso anterior para conseguirmos visualizar os grupos calculados pelo K-means.

Por exemplo: 1- Gráfico feito na aula com os atributos Intensidade de Cor e Álcool e 4 grupos:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Gráfico feito após a redução de dimensionalidade com o PCA e labels feitos com o K-means da mesma forma:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Sei que também há perda de informação ao realizar o PCA, não há como reduzir dimensões sem perder informação, mas perde bem menos do que simplesmente escolhendo atributos específicos, exceto a intenção seja avaliar aqueles atributos. Para analisar os grupos acredito que fique melhor. Ainda mais quando separamos em três grupos: Exemplo da aula:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Por essa imagem o professor falou que fazer a divisão em três grupos talvez não fosse o ideal, mas com o PCA a conclusão é exatamente o contrário:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Segue abaixo o código utilizado para quem quiser testar:

from sklearn.decomposition import PCA 
import seaborn as sns

pca = PCA(n_components = 2)
df_simpl = pca.fit_transform(df)
plt.figure(figsize=(14, 8))
sns.scatterplot(x = df_simpl[:,0], y = df_simpl[:,1], hue = labels, palette='tab10')
1 resposta

Olá, Markus! Tudo tranquilo por aí?

Parabéns pela "sacada" de utilizar um algoritmo para a redução de dimensionalidade e após isso fazer a clusterização, geralmente essa é a ideia que utilizamos em projetos com um número elevado features. Aplicar os conceitos aprendidos em cursos anteriores em outros contextos é essencial para a fixação do conteúdo, ficou muito bom o seu resultado!! Particularmente falando, quando realizei esse curso fiz a mesma coisa que você para aplicar os conceitos adquiridos no curso anterior.

Como leitura complementar deixo esse tópico que falo um pouco mais sobre a plotagem dos gráficos utilizando o TSNE e PCA. Nesse outro tópico o instrutor discorre mais sobre o retorno do TSNE. Espero que goste.

Muito obrigado por compartilhar sua ideia e solução conosco, adoramos ver a forma como os alunos estão trabalhando com o conteúdo aprendido. Continue sempre participando do fórum.

Qualquer dúvida estou sempre à disposição.

:)