Peguei um dataset do kaglge, fiz a limpeza e agora estou usando o RandomizedSearchCV para verificar os melhores hiperparâmetros. No entanto, o treinamento está demorando demais. O dataset contém 30.000 linhas mais ou menos. Estes foram os parâmetros:
parametros_random={'n_estimators':[50,100,150],
'criterion':['gini', 'entropy', 'log_loss'],
'max_depth':[10,15,20],
'max_features':['sqrt', 'log2', None]}
E então foi feito isso:
randomized_search_cv=RandomizedSearchCV(estimator=RandomForestClassifier(random_state=2),
param_distributions=parametros_random,
n_iter=50,
scoring='recall',
n_jobs=-1,
cv=cv)
E por fim, treinei o randomized:
randomized_search_cv.fit(X_treino,y_treino)
O tempo de reprodução do treinamento do randomized está excedendo 20 minutos. Gostaria de saber se tem algum jeito para acelerar mais o processo. (PS: tentei reduzir a amostra de dados, no entanto, afetou o desempenho do modelo)