1
resposta

Dúvida sobre como a camada ReLU entende a não linearidade

Boa tarde pessoal, tudo bem?

Eu fiquei com uma dúvida pra entender como a camada de neurônios com a função de ativação ReLU consegue reproduzir os dados não lineares? Eu sei que essa camada com essa ativação faz isso, mas eu queria entender melhor como. Alguém teria algum material que explicasse isso?

Obrigado.

1 resposta

A ReLU é uma ativação não linear também, apesar de no eixo positivo ela ser idêntica a uma função linear. De qualquer forma ela atende os critérios que permitem a aproximação universal de funções! Eu tenho um notebook que abre esse conceito um pouco, se ajudar: https://colab.research.google.com/drive/1-PSg-ttwn4l-x7ax9hLVdHg3HpZEWZsb?usp=sharing

Pra aproximar funções não lineares complexas, basta que ao combinar funções mais simples (como a ReLU) você consiga compor um conjunto de pequenos retângulos, o que dá pra fazer combinando ReLUs também.

Nunca vi escrito em nenhum livro, mas muitas pesquisas experimentais já notaram que não só a ReLU aproxima bem as funções, como também estabiliza o treinamento evitando o problema do vanishing gradient!