Creio que há um problema na apresentação do conceito feita pela instrutora na Aula 5 (Tuning de hiperparâmetros, por volta de 5:45) e consequentemente na cadeia de implicações feita em seguida. No vídeo, a instrutora diz que dá-se "menos informação por vez", o que não corresponde com o que foi feito (aumento do batch-size de 32 para 480). Por definição, o aumento deste parâmetro implica em mais imagens por iteração. O que ocorreu é que com o aumento do batch-size diminuímos o número de iterações por época:
Batch-size = 32: #Iterações = 48.000/32 = 1500 iterações por época
Batch-size = 480: #Iterações = 48.000/480 = 100 iterações por época