Oi Pedro! Tudo bem contigo?
Desculpa a demora em te trazer um retorno.
A formação da arquitetura dos dados é feita pelas categorias de entrada como é mostrado no minuto 7:18 da aula Pesos e viés, onde a entrada são os dados de clima e temperatura. Por conta disso, apenas uma amostra de cada um desses dados entra na arquitetura por vez, ou seja, não existe uma arquitetura com 731 entradas, pois esses são os dados que as duas entradas do modelo, clima e temperatura, recebem.
Assim, a partir dos dados que cada uma das entradas vai recebendo, os valores de pesos vão sendo alterados de forma a gerar a menor quantidade de perdas para o modelo. Para entender melhor como um modelo de rede neural funciona sugiro bastante a leitura do tópico Não deveriam ter mais pesos na camada 1? e suas respectivas referências. Além da explicação de como funciona esse modelo, a instrutora explica também como funcionam as interações e o que cada resultado do modelo representa.
Em complementação a sugestão acima dada, recomendo também a leitura do tópico Tamanho matrix bias que o instrutor explica como funciona a soma dos valores da matriz de bias e onde os valores se conectam. Mesmo assim, eu entendo que esse assunto possa confundir um pouco quando tratamos dos cálculos para definir os valores das camadas ocultas.
Observando o conjunto dos dados que o professor disponibilizou mais adiante na aula Pesos e viés abaixo, podemos ver como funciona o cálculo para que sejam encontradas as camadas ocultas:

Os valores de cada camada são feitos realizando a soma da multiplicação dos pesos pelas suas respectivas entradas e somando os respectivos vieses. Note que, existem apenas duas entradas, que são utilizadas nos cálculos, e essas duas contribuem para encontrar o valor final da forma correta.
Espero ter te ajudado! Qualquer dúvida estarei à disposição ;-)
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!