1
resposta

Escalas muito diferentes entre as features impacta no pca?

Olá. Estou desenvolvendo um projeto que envolve a análise de um dataset do ComexStat (base do governo) sobre as operações de importação realizadas em determinado ano. E estou verificando a adequação das colunas numéricas em relação ao PCA. Uma dúvida, devido o dataset possuir os mais variados produtos, a escala entre as features é muito diferente. Eu devo aplicar algum scaler antes de verificar se o dataset é apto ao PCA e antes de aplicar o próprio PCA?

1 resposta

Olá Lucas,

Sim, no caso onde as escalas dos dados estão muito diferentes é recomendado aplicar uma técnica de aplicar o PCA. Isso é importante porque o PCA é sensível às escalas das variáveis e pode ser dominado por aquelas com variância muito maior, o que pode levar a resultados distorcidos.

Existem duas técnicas de escalonamento comuns que você pode considerar:

Padronização (Standardization): Também conhecida como Z-score normalization, essa técnica padroniza as variáveis de modo que elas tenham média zero e desvio padrão igual a um. Isso faz com que todas as variáveis tenham a mesma escala e é particularmente útil quando você deseja preservar a forma da distribuição original dos dados. https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

Normalização Min-Max (Min-Max Scaling): Essa técnica dimensiona as variáveis para um intervalo específico, geralmente entre 0 e 1. Isso é útil quando você precisa que todas as variáveis estejam na mesma faixa, mas não é necessário preservar a forma da distribuição original. https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html