1
resposta

[Dúvida] Como aumentar o variance ratio no exemplo da aula?

Na aula 6 "Plottando o Clustering", foi comentado que o variance ratio após os dados passarem pelo PCA ficou na faixa dos 50%. Porém, eu não tenho muita certeza sobre o que fazer se eu precisar aumentar esse valor.

A ideia mais óbvia ao meu ver seria aumentar o n_components do PCA. Nesse caso, digamos que para 3.

pca_pipeline = Pipeline([('scaler', StandardScaler()), ('PCA', PCA(n_components=3, random_state=SEED))])

Porém isso significa que meus dados vão ter 3 dimensões, o que não nos permite visualizar ele usando o scatter plot, que é um gráfico de 2 dimensões.

O raciocínio está certo? Como eu poderia proceder nesse caso?

1 resposta

Olá, Richard, tudo bem?

Desculpe a demora em te responder!

Se você aumentar o número de componentes principais (n_components) no PCA para 3, você está corretamente aumentando a dimensionalidade dos seus dados para 3 dimensões. Isso pode ser benéfico em alguns casos, especialmente se você acredita que os componentes adicionais capturam informações importantes sobre a variabilidade dos seus dados. No entanto, como você mencionou, isso dificultaria visualizar os dados em um gráfico de dispersão bidimensional.

Aumentar o número de componentes no PCA pode aumentar o poder de representação do seu modelo, mas também pode tornar a interpretação dos resultados mais complexa. Portanto, a escolha do número de componentes deve ser baseada em uma análise cuidadosa dos seus dados e nos objetivos do seu projeto.

Se você deseja manter a capacidade de visualizar seus dados em um gráfico de dispersão enquanto aumenta a variância explicada pelos componentes principais, você pode considerar uma abordagem intermediária. Você pode escolher um número maior de componentes principais do que 2, mas ainda menor do que o número total de características originais, para equilibrar a capacidade de representação e a capacidade de visualização.

Além disso, você também pode tentar outras técnicas de redução de dimensionalidade que permitam preservar uma representação mais compacta dos dados. Por exemplo, o t-SNE (t-distributed Stochastic Neighbor Embedding) é uma técnica de redução de dimensionalidade útil para visualizar dados em duas ou três dimensões enquanto preserva relacionamentos entre os pontos em alta dimensionalidade. No entanto, lembre-se de que o t-SNE é uma técnica não linear e pode ter algumas limitações em termos de interpretabilidade.

Todavia outros testes são necessários a fim de obter o resultado esperado, mas espero que esta resposta seja um bom ponto de partida para a resolução do seu problema.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!