A ReLU é uma ativação não linear também, apesar de no eixo positivo ela ser idêntica a uma função linear. De qualquer forma ela atende os critérios que permitem a aproximação universal de funções! Eu tenho um notebook que abre esse conceito um pouco, se ajudar:
https://colab.research.google.com/drive/1-PSg-ttwn4l-x7ax9hLVdHg3HpZEWZsb?usp=sharing
Pra aproximar funções não lineares complexas, basta que ao combinar funções mais simples (como a ReLU) você consiga compor um conjunto de pequenos retângulos, o que dá pra fazer combinando ReLUs também.
Nunca vi escrito em nenhum livro, mas muitas pesquisas experimentais já notaram que não só a ReLU aproxima bem as funções, como também estabiliza o treinamento evitando o problema do vanishing gradient!