Oii Pedro, tudo certinho por ai?
Desculpa a demora em te dar um retorno nessa questão.
Esse valor de 256, da diferença entre 200704 e 200960, representa os 256 valores de viéses que temos na rede. Então, temos 784 inputs e 256 nós na primeira camada, tendo como resultado esse número de 200704 de pesos, um por conexão. O outro tipo de nó que temos, chamado de viés, é conectado a cada um dos nós da primeira camada, então 200704 de pesos de cada conexão mais os 256 valores de viés, totaliza os 200960 parâmetros.
Espero que tenha sanado a sua dúvida, mas pode me chamar se precisar de mais algo!
Bons estudos ^^
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!