Vantagem do PCA nos dados | Spark: sistema de recomendação

Oi, Bruno. Como vai?

Ótima pergunta!

Isso que fizemos é a redução da dimensionalidade, que é um aspecto bastante importante quando trabalhamos com aprendizado não supervisionado. Ainda que pareça prejudicial, a perda dos dados que tivemos não compromete o modelo, afinal, o PCA mantém a maior parte da variação original dos dados - ou seja: os dados perdidos não influenciarão no "formato" da variação do conjunto de dados. Os dados mais relevantes são mantidos.

A redução da explicação total de 99.9% para 70% acaba sendo benéfica. Algoritmos de classificação trabalham melhor com uma menor quantidade de variáveis. Ao simplificar o conjunto de dados, melhoramos a eficiência computacional e a performance do modelo, além de evitar overfittting (quando o modelo fica "apegado demais" às variáveis com as quais ele foi treinado).

Bruno, espero ter esclarecido sua dúvida. Fico à disposição para conversarmos melhor, caso sinta necessidade.

Abraços!