0
respostas

Base de dados heterogênea, como proceder?

Olá!

Finalizei ontem o curso de Clustering: extraindo padrões de dados, adorei o conteúdo e gostaria de aplicá-lo em um projeto no meu estágio.

O desafio é que, diferente do dataset deste curso, meu dataset é heterogêneo (contém dados inteiros, datas, strings, etc.) e necessitará de muito encoding antes de executar a clusterização.

Além disso o dataset ainda é de alta dimensionalidade, contendo 46 colunas no estado bruto.

Quais seriam as melhores opções para realizar o encoding dos dados e melhores opções de algoritmos para meu caso?

Além disso, imagino que no final a interpretação dos clusters também seria mais difícil, já que eu tenho muitos atributos não-numéricos.

Agradeço desde já sobre possíveis dicas e sugestões!

Abraços,

Alonso Ehlert

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software