1
resposta

Pq reduzir a dimensões do DataFrame?

Ao assistir o vídeo 2 - Redução de dimensionalidade da aula Clusterização por música fiquei com uma dúvida. Eu entendi a questão de reduzir a dimensionalidade para questões de visualização, já que fica difícil criar uma gráfico inteligível com mais de três dimensões, porém, para a criação do modelo de classificação em si não seria melhor utilizar todas as features, já que explicam melhor a variabilidade dos dados? Por exemplo, com seis componentes é obtida uma taxa de explicação de variabilidade de 66%, sem a redução de dimensionalidade não seria obtido um resultado melhor?

1 resposta

Olá, Henrique! Tudo bem?

A redução de dimensionalidade é útil quando você tem muitas características. Quando se trata de criar um modelo de classificação, usar todas as features pode ser benéfico, desde que você tenha dados suficientes e evite overfitting. A redução de dimensionalidade pode ajudar a simplificar o modelo e acelerar o treinamento, mas nem sempre é necessário. Se você obtém uma boa explicação da variabilidade sem a redução de dimensionalidade e não enfrenta problemas de desempenho, pode ser melhor usar todas as features. Portanto, a escolha depende do seu conjunto de dados e dos objetivos do seu projeto.

Para você se aprofundar no assunto, recomendo o curso Análise de componentes principais: elaboração de rankings com o PCA, onde você aprenderá a aplicar o PCA de forma eficaz, além de construir rankings com o PCA, interpretar cargas fatoriais e comunalidades, e criar mapas interativos, como mapas de calor, para visualização.

 

Espero ter ajudado, Henrique. Se tiver mais alguma dúvida, estou à disposição. Bons estudos =)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!