[Dúvida] Em Redes Neurais Recorrentes(RNNs), qual é a fórmula matemática da propagação ? | Data Science

Em cursos aqui da Alura, vi explicações sobre como as RNNs funcionam. Eu tirei uma print de uma imagem de um curso que eu gostaria de fazer essas perguntas:

Imagem que aparce em um curso de Deep Learning aqui da Alura Nesse curso, e em outro curso aqui da Alura, os professores disseram que na RNN cada unidade tem um "loop interno". Eles dizem que as saidas de cada unidade vão ser usadas como entradas adicionais para elas mesmas no próximo instante de tempo(ou seja, quando a RNN estiver processando a proxima amostra do dataset). Eles explicam que esse "loop interno" é chamado de estado oculto da unidade. Eles explicam que as amostras são os instantes de tempo, e que ao processar a primeira amostra, ou seja, o primeiro instante de tempo, o estado oculto dela é simplismente zero(pois o H0 é inicializado com zero). Mais, quando ele vai processar o segundo instante de tempo(ou seja, a segunda amostra), as unidades recebem as entradas dessa amostra e MAIS o estado oculto do instante de tempo anterior(ou seja, o estado oculto da amostra passada, ou seja, do primeiro instante de tempo). Ou seja, esses cursos explicam que as saidas das unidades são usadas não somente nas camadas seguintes, mais também, são arquivadas para serem usadas no instante de tempo seguinte(ou seja, ao processar a proxima amostra, além de processar as entradas dela, ele vai usar também o estado oculto do instante de tempo anterior, criando um efeito de dependencia de sequencia ).

Mais eu fico com algumas dúvidas de como esse processo funciona.

DUVIDAS:

Em Redes Neurais Recorrentes(RNNs), qual é a fórmula matemática da propagação ? Quais elementos compõem essa fórmula ? Quais parâmetros temos nela ?
Na fórmula existem pesos adicionais que são usados na hora de combinar os estados ocultos anteriores junto das entradas da amostra atual?
Na imagem do curso, ao que tudo indica, cada unidade recebe sua saida como entrada adicional no próximo instante de tempo. Mais como essa combinação é feita?
O estado oculto num determinado instante de tempo é na realidade uma matriz que representa os valores de estado oculto de cada unidade de cada camada?

São perguntas que tenho a um bom tempo. Eu gostaria muito de aprender essas coisas para começar a entender como funciona as RNNs.

Muito obrigado por toda ajuda que voces estão me dando!