Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Treinou o RFE com um dado e transformou com outro - part 2

Olá pessoal, há dois anos o aluno fez a pergunta abaixo no forum e não vi resposta. Também tenho esta dúvida? O correto não é utilizar o método RFE ou RFECV na base de dados original, em vez de uma que ele ja havia tratado e removido algumas features? Se não, por que?

"Olá Thiago!

Um dos gráficos ficou semelhante, mas o outro ficou espelhado em relação à uma vertical. É recomendado aplicar um modelo de feature selection, como o kbest ou RFE, no dataframe original, ou seja, sem eliminar previamente algumas features no processo de análise exploratória dos dados?"

1 resposta
solução!

Olá, Claudia! Tudo bem com você?

Depende de cada situação. Os algoritmos RFE e RFECV funcionam de forma recursiva (Recursive Feature Elimination), portanto ambos procuram um subconjunto de recursos começando com todos os recursos no conjunto de dados de treinamento e removendo recursos com sucesso até que o número desejado permaneça. Isso é muito custoso computacionalmente.

Então, imagine que seu conjunto de dados é extremamente grande, com muitas features e amostras, realizar esse treinamento repetidas vezes e eliminando features pode ser demasiadamente demorado, então remover de antemão as que você sabe que não são relevantes para a análise é uma abordagem interessante. Por exemplo, remover ID's, latitude, longitude, features que apresentam valores únicos para cada amostra, pode ser interessante para reduzir a complexidade e reduzir o tempo gasto.

Caso você tenha somente features que você não consegue distinguir se são relevantes ou não, a depender da análise do negócio, então é mais apropriado executar os métodos de redução de feature no conjunto inteiro.

Espero ter ajudado, caso ainda tenha ficado alguma dúvida pode nos retornar por aqui mesmo.

Abraços.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!