[Dúvida] Em Redes Neurais MLP, por que para se calcular o delta de um neuronio eu preciso multiplicar o erro desse neuronio pela derivada da função de ativação desse neuronio? | Data Science

Solucionado (ver solução)

Solucionado
(ver solução)

2
respostas

por William Alves Jardim

| 224.9k xp | 91 posts

Em Redes Neurais MLP, por que para calcular o delta de um neuronio eu preciso multiplicar o erro desse neuronio pela derivada da função de ativação desse neuronio? por que isso é feito?

Junto com essa duvida: Matematicamente, nessa formula do delta usada no artigo, por que eu multiplico o erro pela derivada? qual o efeito que isso tem matematicamente? qual a finalidade disso?

Por exemplo nesse artigo: https://machinelearningmastery.com/implement-backpropagation-algorithm-scratch-python/, no código em python que ele apresenta, para calcular o delta de um neuronio(seja ele da camada oculta ou da camada de saida), se usa o erro do neuronio multiplicado pela derivada da função de ativação do neuronio(no caso do artigo a derivada da Sigmoid).

Na internet, em geral eles dizem que derivada é uma taxa de variação instantanea em um ponto da função no grafico. No caso, a derivada da função de ativação Sigmoid usada no artigo, seria a taxa de variação instantanea da Sigmoid para um ponto especifico(no caso o potencial de ativação do neuronio que entra na função Sigmoid)

Mais mesmo assim ainda fico na duvida Tenho algumas perguntas sobre esse assunto:

1 - Por que para calcular o delta de um neuronio eu preciso multiplicar o erro desse neuronio pela derivada da função de ativação desse neuronio?

2 - Matematicamente, nessa formula do delta usada no artigo, por que eu multiplico o erro pela derivada? qual o efeito que isso tem matematicamente? qual a finalidade disso?

3 - Qual o papel da derivada no calculo do delta ? o que ela significa? por que ela é importante nessa aplicação?

2 respostas

solução!

por NATHALIA QUEIROZ

| 3141.4k xp | 7278 posts

Alura Scuba Team

03/05/2024

Oii, William! Tudo bem?

O delta, é importante para o ajuste dos pesos durante um treinamento da rede neural e o erro indica a diferença entre a saída prevista e a saída real. Multiplicar esse erro pela derivada da função de ativação (no ponto atual de ativação do neurônio) ajuda a determinar a direção e a magnitude da mudança necessária nos pesos.

Essa multiplicação ajusta o gradiente do erro em função da sensibilidade da função de ativação à entrada do neurônio. Se a derivada é grande, significa que uma pequena mudança nos pesos pode resultar em uma grande mudança na saída do neurônio, o que acaba corrigindo o erro mais rápido. Caso contrário, a saída do neurônio é menos sensível às mudanças nos pesos, o que implica em ajustes mais sutis. A finalidade é um processo aprendizagem otimizado.

O papel da derivada serve como um fator de escala que ajusta a magnitude da atualização dos pesos. Ela é essencial porque determina como a saída do neurônio muda em resposta a mudanças em suas entradas. O que ajuda a garantir que os pesos sejam atualizados de maneira que o erro geral da rede diminua de forma mais eficiente.

Espero ter ajudado. Bons estudos!

por William Alves Jardim

| 224.9k xp | 91 posts

03/05/2024

Obrigado por explicar mais sobre esse ponto