1
resposta

Selecionar features e validar modelo

Quando tiver uma alta dimensionalidade de features, qual seria os processos para selecionar as melhores features e validar o modelo? Poderia utilizar um algoritmo como RFE para fazer essa seleção, e com essas novas features usar o GridSearchCV pra validar o modelo? Qual seria uma "boa pratica" ou um bom processo?

1 resposta

Olá Joao, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Ao possuir uma alta dimensionalidade dos dados, você pode utilizar algoritmos de decomposição, responsáveis por reduzir a dimensionalidade do conjunto de dados através de agrupamentos de variáveis que possuem alta correlação entre si por exemplo, um dos algoritmos mais utilizados é o PCA.

Uma outra abordagem é a seleção das melhores features que, como o próprio nome já diz, selecionará as melhores variáveis com base em certas condições. Existem diversas abordagens para a seleção de melhores features e você deve escolher de acordo com os tipos de variáveis do seu conjunto de dados.

A melhor forma de escolher a melhor abordagem é comparando os resultados obtidos nos modelos. Aquele que apresentar melhor resultado provavelmente será a melhor abordagem. Claro que o trabalho computacional também pode ser levado em conta.

Na biblioteca sklearn, você pode encontrar diversos métodos para decomposição e de seleção de features.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!