Quantidade de exames. | Machine Learning: lidando com dados de muitas dimensões

Olá Carlos! Tudo bem por aí?

Primeiramente gostaria de pedir desculpas pela demora em dar um retorno.

Diferentemente dos métodos de redução de dimensionalidade utilizados em aulas anteriores, como RFE e SelectKBest, o PCA e o TSNE Não "escolhe" as melhores características (features) de acordo com o número de dimensões que escolhemos, é aí que está a grande melhoria em relação aos métodos anteriores.

O que o método PCA Faz, por exemplo, é uma combinação das características do dataset e aplica uma transformação nos dados por meio de modelos matemáticos, e então nós usamos esses dados transformados para fazer a classificação. O TSNE segue a mesma ideia.

Quando executa-se no código os seguintes comandos:

pca = PCA(n_components=2)

# ou

tsne = TSNE(n_components=2)

Estamos falando que queremos que nossa transformação, após o fit_transform tenha dimensão 2, ou seja, 2 colunas (sendo a primeira que melhor classifica nossos dados, a segunda coluna que classifica bem mas não tão bem quanto a primeira, e assim sucessivamente, caso quisesse mais dimensões.)

Então não temos, após a tranformação, uma coluna de exame_1, exame_2, exame_3... e sim combinações das informações presentes em cada uma dessas colunas de exames.

para checar o número de linhas e colunas usa-se o método shape, conforme exemplo a seguir:

from sklearn.decomposition import PCA

# O PCA se comporta melhor quando temos os dados já normalizados.
pca = PCA(n_components=2)
valores_exame_v8 = pca.fit_transform(valores_exame_v5)
valores_exame_v8.shape

Saída

(569, 2)

from sklearn.manifold import TSNE
tsne = TSNE(n_components=2)
valores_exame_v9 = tsne.fit_transform(valores_exame_v5)
valores_exame_v9.shape

Saída

(569, 2)

Onde o 569 é a quantidade de linhas, e 2 o número de dimensões (ou colunas).

Caso surja alguma dúvida estou à disposição para ajudar.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!