Na função de propaga total, qual a necessidade de guardar à saída atual (soma com np.dot) se a proxíma camada só vai usar o valor da ativação?
Certo, layer 1 faz a soma e coloca o valor dessa soma em uma função de ativação, passa esse valor de ativação da camada 1 para a camada 2, a camada dois usa esse valor para fazer a soma com os pesos e bias da camada 2 e para terminar, coloca o valor da soma da camada 2 em uma função de ativação e pronto. Pelo menos foi isso que eu entendi, alguém pode me explicar pf?
Muito obrigado