Olá Jonata, tudo bem?
Olha, eu já fiz isso e os resultados não foram bons. A grandeza das redes CNN é exatamente a capacidade de aprender padrões nas imagens, com isso ela é quase imbatível no reconhecimento de sentimentos do que utilizando somente os marcos faciais.
Dá uma olhada na minha abordagem . Basicamente eu criei um ponto central em relação a todos os marcos e tracei retas entre eles, e utilizei esses pontos para treinar um modelo, veja na imagem.
Por se tratar de dados discretos e numéricos, utilizei o SVN (Support-Vector Machine) para o treinamento, mas não consegui ir além dos 71%.
Utilizei as CNNs para a identificação de faces, não foi detecção de sentimentos, mas é uma boa aproximação. Neste caso, atingi mais de 90%.
Abraço.