Oii, Mariana! Tudo joia?
Claro, vamos lá!
Sobre o overfiting o raciocínio está no caminho certo. Porém, na situação em que a acurácia na base de treinamento é menor pode indicar outros fatores, como uma divisão de dados não representativa, onde os dados de treinamento podem conter mais ruído ou serem mais difíceis de classificar. Além disso, configurações de hiperparâmetros que favorecem a generalização, podem causar essa discrepância. Outras causas podem incluir ruído nos dados de treinamento ou variações aleatórias devido a tamanhos de conjuntos inadequados.
Como sugestão para uma solução, é verificar se a divisão dos dados é representativa e considere usar estratificação. Revise os hiperparâmetros da árvore de decisão e use técnicas de validação cruzada. Analise e limpe os dados de treinamento para remover ruídos e outliers. Se possível, aumente o tamanho dos conjuntos de dados para obter uma estimativa mais precisa do desempenho do modelo.
Uma análise mais aprofundada dos dados e do processo de modelagem ajudará a identificar a causa específica e a ajustar o modelo para melhorar seu desempenho de maneira consistente dentro do contexto do seu projeto.
Espero ter ajudado, continue se dedicando aos estudos.
Abraço!