Olá Diego tudo bem?
Obrigado pela sugestão!
Bom intuitivamente o que o PCA faz, ele vai rotacionar o seus eixos. Mas não é uma rotação aleatória, os novos eixos rotacionados de modo a apontar para a máxima variância!
Como assim?
Imagina que temos uma distribuição de pontos em um gráfico de 3 dimensões (x1, y1, z1), agora vamos aplicar o PCA que tbm vai gerar 3 componentes principais ("3 eixos" x2, y2, z2), porém agora o primeiro eixo (x2) aponta para a direção de máxima variância, o segundo eixo (y2) aponta para a segunda direção de máxima variância e o 3° precisa ser ortagonal (90°) ao dois primeiros. Ou seja o que está acontecendo aqui? Os eixos x2 e y2 explica uma grande parte dos seus dados, fazendo com que o eixo z2 tenha uma quantidade de "informações relevantes" um pouco menor. Por isso conseguimos reduzir a dimensionalidade otimizando a perda de informação!
Espero que tenha ficado um pouco mais claro!
Abraços