Em Redes Neurais MLP, por que para calcular o delta de um neuronio eu preciso multiplicar o erro desse neuronio pela derivada da função de ativação desse neuronio? por que isso é feito?
Junto com essa duvida: Matematicamente, nessa formula do delta usada no artigo, por que eu multiplico o erro pela derivada? qual o efeito que isso tem matematicamente? qual a finalidade disso?
Por exemplo nesse artigo: https://machinelearningmastery.com/implement-backpropagation-algorithm-scratch-python/, no código em python que ele apresenta, para calcular o delta de um neuronio(seja ele da camada oculta ou da camada de saida), se usa o erro do neuronio multiplicado pela derivada da função de ativação do neuronio(no caso do artigo a derivada da Sigmoid).
Na internet, em geral eles dizem que derivada é uma taxa de variação instantanea em um ponto da função no grafico. No caso, a derivada da função de ativação Sigmoid usada no artigo, seria a taxa de variação instantanea da Sigmoid para um ponto especifico(no caso o potencial de ativação do neuronio que entra na função Sigmoid)
Mais mesmo assim ainda fico na duvida Tenho algumas perguntas sobre esse assunto:
1 - Por que para calcular o delta de um neuronio eu preciso multiplicar o erro desse neuronio pela derivada da função de ativação desse neuronio?
2 - Matematicamente, nessa formula do delta usada no artigo, por que eu multiplico o erro pela derivada? qual o efeito que isso tem matematicamente? qual a finalidade disso?
3 - Qual o papel da derivada no calculo do delta ? o que ela significa? por que ela é importante nessa aplicação?