Definição da profundidade da Árvore

Olá,

Como posso saber qual seria o max_deph ótimo para o modelo?

Observei que a medida que aumentamos a profundidade da árvore o score do modelo aumenta.
Como posso definir a profundidade, de forma que chegue ao ponto ótimo?

Perguntei para a IA e a resposta foi a seguinte:

Para encontrar o max_depth ótimo, você não pode olhar apenas para uma métrica. Você precisa monitorar duas curvas simultaneamente:

Score de Treino: Continuará subindo conforme a profundidade aumenta (como você observou).
Score de Teste (ou Validação): Vai subir até certo ponto (o aprendizado real) e, depois, começará a cair ou estagnar.

O Ponto Ótimo é exatamente onde o Score de Teste atinge seu pico, antes de começar a se distanciar muito do Score de Treino.

Devo confiar nessa resposta? Seguindo essa lógica encontrei o max_depth = 5

Olá, Breno! Como vai?

A solução que você recebeu está correta e descreve um método comum para determinar o max_depth ideal para uma árvore de decisão.

A ideia é evitar o overfitting, que ocorre quando o modelo se ajusta demais aos dados de treinamento, capturando ruídos e padrões que não se generalizam bem para dados novos.

Para encontrar o max_depth ótimo, você pode seguir o procedimento de validação cruzada. Aqui está um exemplo prático de como você pode implementá-lo usando a biblioteca scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# Definindo uma lista de profundidades para testar
depths = range(1, 20)

# Lista para armazenar os scores de validação cruzada
cv_scores = []

# Loop para calcular o score de validação cruzada para cada profundidade
for depth in depths:
    model = DecisionTreeClassifier(max_depth=depth, random_state=5)
    scores = cross_val_score(model, x_treino, y_treino, cv=5, scoring='accuracy')
    cv_scores.append(scores.mean())

# Encontrando a profundidade com o melhor score
optimal_depth = depths[np.argmax(cv_scores)]
print(f'O max_depth ótimo é: {optimal_depth}')

Esse código testa diferentes valores de max_depth e usa validação cruzada para avaliar o desempenho do modelo em cada caso. O max_depth que proporciona a melhor média de acurácia nos conjuntos de validação cruzada é considerado o mais adequado.

O fato de você ter encontrado max_depth = 5 como ponto ótimo faz sentido, já que esse valor pode representar um bom equilíbrio entre complexidade e capacidade de generalização do modelo.

Espero ter ajudado e fico à disposição se precisar.

Abraço e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema