Olá, Danilo! Entendo sua dúvida, realmente é um pouco contra-intuitivo.
Geralmente, esperamos que o modelo tenha um desempenho melhor nos dados de treino do que nos dados de teste, pois o modelo é treinado nesses dados. No entanto, isso não é uma regra rígida e pode haver casos em que o modelo tem um desempenho melhor nos dados de teste.
Isso pode acontecer por várias razões. Por exemplo, pode ser que os dados de teste sejam mais fáceis de classificar do que os dados de treino. Ou talvez os dados de treino contenham algum ruído ou outliers que tornam a tarefa de classificação mais difícil.
Outra possibilidade é que a divisão entre treino e teste não seja completamente aleatória. Se, por exemplo, os dados de treino contêm muitos exemplos de uma classe particular, enquanto os dados de teste contêm principalmente exemplos de outra classe, isso pode levar a uma diferença de desempenho.
Além disso, é importante notar que o desempenho do modelo pode variar dependendo da métrica de avaliação que você está usando. Por exemplo, se você estiver usando a acurácia como métrica, um modelo pode ter um desempenho melhor nos dados de teste se os dados de teste estiverem desbalanceados em favor da classe mais fácil de prever.
Espero ter ajudado e bons estudos!