Olá, Richard, tudo bem?
Desculpe a demora em te responder!
Se você aumentar o número de componentes principais (n_components) no PCA para 3, você está corretamente aumentando a dimensionalidade dos seus dados para 3 dimensões. Isso pode ser benéfico em alguns casos, especialmente se você acredita que os componentes adicionais capturam informações importantes sobre a variabilidade dos seus dados. No entanto, como você mencionou, isso dificultaria visualizar os dados em um gráfico de dispersão bidimensional.
Aumentar o número de componentes no PCA pode aumentar o poder de representação do seu modelo, mas também pode tornar a interpretação dos resultados mais complexa. Portanto, a escolha do número de componentes deve ser baseada em uma análise cuidadosa dos seus dados e nos objetivos do seu projeto.
Se você deseja manter a capacidade de visualizar seus dados em um gráfico de dispersão enquanto aumenta a variância explicada pelos componentes principais, você pode considerar uma abordagem intermediária. Você pode escolher um número maior de componentes principais do que 2, mas ainda menor do que o número total de características originais, para equilibrar a capacidade de representação e a capacidade de visualização.
Além disso, você também pode tentar outras técnicas de redução de dimensionalidade que permitam preservar uma representação mais compacta dos dados. Por exemplo, o t-SNE (t-distributed Stochastic Neighbor Embedding) é uma técnica de redução de dimensionalidade útil para visualizar dados em duas ou três dimensões enquanto preserva relacionamentos entre os pontos em alta dimensionalidade. No entanto, lembre-se de que o t-SNE é uma técnica não linear e pode ter algumas limitações em termos de interpretabilidade.
Todavia outros testes são necessários a fim de obter o resultado esperado, mas espero que esta resposta seja um bom ponto de partida para a resolução do seu problema.
Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!