Oi, Danilo, tudo bem?
O PCA é usado para simplificar dados mantendo o máximo de informação. Ele identifica direções que têm mais variação nos dados, reduzindo o número de variáveis e acelerando cálculos. Isso é útil em grandes conjuntos de dados.
E sim, ao usar o PCA, perdemos um pouco de informação, mas mantemos o importante, descartando as que menos contribuem para a variância. Isso ajuda a evitar ajustes excessivos e simplifica o modelo. E quanto à escolha de reduzir para 2 colunas em vez de 11, isso foi feito propor razões práticas e analíticas. É prático para visualização e análise de padrões. E a decisão de quantas colunas manter depende da análise dos valores próprios e da quantidade de variação retida.
Em relação à padronização com o PCA, primeiro, você precisa padronizar os dados, garantindo que todas as variáveis tenham a mesma escala. Depois disso, aplique o PCA para reduzir a dimensionalidade dos dados. Então, interprete os componentes principais para entender como cada um contribui para a variância nos dados originais. E por fim, decida quantos componentes reter com base na quantidade de variância que eles explicam.
Quanto a sua última dúvida, se você não usar o PCA em seu recomendador de músicas, o modelo pode ser mais complexo, lento e propenso a ajustes excessivos, principalmente se tiver muitas variáveis.
Espero ter esclarecido.
Bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!