1
resposta

[Dúvida] duvida sobre o metodo PCA

não entendi 100% a necessidade de usar esse metodo, entendi que ele ajuda o modelo a generalizar os dados e prevenir overfitting, mas isso não faria o modelo perder informações? e porque resumir apenas a 2 colunas num dataset com 11? tem algum procedimento na hora de usar a padronização com o PCA? ou é algo mais subjetivo? no caso desse recomendador, o que seria alterado no modelo se eu não usar o PCA?

1 resposta

Oi, Danilo, tudo bem?

O PCA é usado para simplificar dados mantendo o máximo de informação. Ele identifica direções que têm mais variação nos dados, reduzindo o número de variáveis e acelerando cálculos. Isso é útil em grandes conjuntos de dados.

E sim, ao usar o PCA, perdemos um pouco de informação, mas mantemos o importante, descartando as que menos contribuem para a variância. Isso ajuda a evitar ajustes excessivos e simplifica o modelo. E quanto à escolha de reduzir para 2 colunas em vez de 11, isso foi feito propor razões práticas e analíticas. É prático para visualização e análise de padrões. E a decisão de quantas colunas manter depende da análise dos valores próprios e da quantidade de variação retida.

Em relação à padronização com o PCA, primeiro, você precisa padronizar os dados, garantindo que todas as variáveis tenham a mesma escala. Depois disso, aplique o PCA para reduzir a dimensionalidade dos dados. Então, interprete os componentes principais para entender como cada um contribui para a variância nos dados originais. E por fim, decida quantos componentes reter com base na quantidade de variância que eles explicam.

Quanto a sua última dúvida, se você não usar o PCA em seu recomendador de músicas, o modelo pode ser mais complexo, lento e propenso a ajustes excessivos, principalmente se tiver muitas variáveis.

Espero ter esclarecido.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!