Eu consegui entender a utilidade do PCA, mas não entendi qual a utilidade que teve no exercício. Por exemplo nós tínhamos features que explicavam 99.9% dos dados e reduzimos para 70% com o PCA. Isso não seria prejudicial?
Eu consegui entender a utilidade do PCA, mas não entendi qual a utilidade que teve no exercício. Por exemplo nós tínhamos features que explicavam 99.9% dos dados e reduzimos para 70% com o PCA. Isso não seria prejudicial?
Oi, Bruno. Como vai?
Ótima pergunta!
Isso que fizemos é a redução da dimensionalidade, que é um aspecto bastante importante quando trabalhamos com aprendizado não supervisionado. Ainda que pareça prejudicial, a perda dos dados que tivemos não compromete o modelo, afinal, o PCA mantém a maior parte da variação original dos dados - ou seja: os dados perdidos não influenciarão no "formato" da variação do conjunto de dados. Os dados mais relevantes são mantidos.
A redução da explicação total de 99.9% para 70% acaba sendo benéfica. Algoritmos de classificação trabalham melhor com uma menor quantidade de variáveis. Ao simplificar o conjunto de dados, melhoramos a eficiência computacional e a performance do modelo, além de evitar overfittting (quando o modelo fica "apegado demais" às variáveis com as quais ele foi treinado).
Bruno, espero ter esclarecido sua dúvida. Fico à disposição para conversarmos melhor, caso sinta necessidade.
Abraços!