2
respostas

Diversidade de modelos no Stacking - CatBoost e ExtraTrees

Olá novamente!

Tenho outra dúvida sobre stacking: os modelos CatBoost e ExtraTrees pertencem à mesma família de algoritmos?

Estou pensando em usá-los como estimadores base, mas fiquei na dúvida se seria melhor escolher modelos de famílias diferentes para ter mais diversidade nos ensemble, ou se modelos da mesma família também funcionam bem nesse contexto.

Alguém poderia compartilhar alguma experiência ou recomendação sobre isso?

Obrigado!

2 respostas

Olá Carlos, tudo bem?

O CatBoost e o ExtraTrees são de famílias diferentes de algoritmos, o que pode ser benéfico para o stacking.

O CatBoost é um algoritmo de boosting que pertence à família dos modelos de árvores de decisão, mas utiliza técnicas específicas para lidar com variáveis categóricas e evitar overfitting. Já o ExtraTrees (Extremely Randomized Trees) é uma variante dos modelos de árvores de decisão que utiliza a aleatoriedade para dividir os nós, o que pode aumentar a diversidade entre as árvores.

Ao combinar modelos de diferentes famílias, como é o caso do CatBoost e do ExtraTrees, você tende a aumentar a diversidade dos estimadores base, o que geralmente é uma boa prática em ensemble learning. Isso porque modelos de diferentes famílias podem capturar diferentes padrões nos dados, resultando em um modelo final mais robusto.

Mas, é importante testar e validar a combinação específica no seu conjunto de dados, pois a eficácia pode variar dependendo do problema e dos dados disponíveis. Experimente diferentes combinações e observe os resultados para encontrar a melhor configuração para o seu caso.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Conteúdos relacionados

Os links estão em inglês, mas você pode usar a tradução automática do navegador

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Olá Monalisa.

Muito obrigado pela resposta detalhada!

Seguindo nessa linha de diversidade entre famílias de algoritmos, fiquei com uma dúvida: há alguma recomendação ou contraindicação de usar Random Forest junto com XGBoost em um stacking?

Entendo que o Random Forest é um método de bagging (focado em reduzir variância) e o XGBoost é um método de boosting (focado em reduzir viés), ou seja, atacam o problema de maneiras diferentes. Nesse sentido, imagino que combiná-los poderia ser interessante justamente pela complementaridade.

Alguém já experimentou essa combinação? Gostaria de saber se, na prática, costuma trazer ganhos reais em diversidade/robustez ou se os dois ainda acabam sendo considerados "muito parecidos" por ambos se basearem em árvores de decisão.