[Dúvida] Ajuda na seleçao de labels | Machine Learning: classificação com SKLearn

Olá Gediel,

Quando há várias features, utiliza-se de técnicas chamadas Feature Selection, consistindo em escolher as melhores features a fim de otimizar o seu modelo. Deixo aqui algumas sugestões, porém você pode ver a documentação completa do Scikit-Learn aqui ou assistir um curso próprio da Alura focado nesse conteúdo nesse link.

Matriz de Correlação: analisa a correlação de cada feature sem a necessidade de se fazer o pairplot, é um número que vai de -1 a 1, proporcional à correlação entre as features. Você pode utilizar o pandas junto ao seaborn para uma melhor visualização:
```
# Mostra um DataFrame com os valores de correlação entre todas as colunas numéricas
dados.corr()
# Plota usando cores para distinguir forte correlação proporcional ou inversamente proporcional
sns.heatmap(dados.corr())
```

SelectKBest: no curso da Alura deixado no link acima, o instrutor explica detalhadamente como funciona essa técnica, mas basicamente há uma seleção das features que melhor explicam os seus dados como um todo, pois há features que possuem maior importância no resultado de um treinamento e predição. Um código exemplo do próprio Scikit-Learn, documentação completa:

# Dataset de exemplo do Sklearn
>>> from sklearn.datasets import load_digits
# Métodos
>>> from sklearn.feature_selection import SelectKBest, chi2
>>> X, y = load_digits(return_X_y=True)
# O Dataset de exemplo possui 64 features / colunas
>>> X.shape
(1797, 64)
# Diminui-se para 20 colunas usando a métrica do chi quadrado, selecionando as 20 que melhor explicam o Dataset
>>> X_new = SelectKBest(chi2, k=20).fit_transform(X, y)
>>> X_new.shape
(1797, 20)

Espero ter ajudado.