Olá!
Finalizei ontem o curso de Clustering: extraindo padrões de dados, adorei o conteúdo e gostaria de aplicá-lo em um projeto no meu estágio.
O desafio é que, diferente do dataset deste curso, meu dataset é heterogêneo (contém dados inteiros, datas, strings, etc.) e necessitará de muito encoding antes de executar a clusterização.
Além disso o dataset ainda é de alta dimensionalidade, contendo 46 colunas no estado bruto.
Quais seriam as melhores opções para realizar o encoding dos dados e melhores opções de algoritmos para meu caso?
Além disso, imagino que no final a interpretação dos clusters também seria mais difícil, já que eu tenho muitos atributos não-numéricos.
Agradeço desde já sobre possíveis dicas e sugestões!
Abraços,
Alonso Ehlert