Sugiro que essa aula e as demais em que ela fica dividindo por 255 sejam regravadas, desde o começo do curso percebi que ela não inclui novas células e fica inserindo códigos em uma mesma célula, para explicar tudo bem, colocar em Português depois colocar o código em Python (inglês) acho isso formidável, o Guilherme faz muito isso, vai fazendo o código conforme a aula se desenvolve, isso é muito legal.... porém.... quando ela roda a célula e depois insere novos códigos e roda de novo, pode acontecer esse erro da normalização tão discutida aqui.
Fui fazendo aqui inserindo novas células conforme o código de uma célula (atual) fosse rodada, e percebi esse erro na hora de normalizar onde já foi esclarecido no Fórum, eu também já vi a "errata" acrescentada na descrição do vídeo.
Entretanto, sugiro a regravação dessas aulas, porque logo na marca 2:42, da aula "Definindo número de camadas" em que ela inseriu uma nova camada e rodou a célula, o "loss" que ela obteve foi 0.7795 (maior que o anterior) e no meu notebook, com a normalização feita apenas uma vez: 0.4735
Na célula anterior com 2 camadas: 0.4828
Conclusão: com 3 camadas (0.4735) e com 2 camadas (0.4828)
E pelo que vi (ainda não terminei de ver a aula), a instrutora vai concluir o contrário, que não foi bom inserir essa nova camada, o que leva a uma conclusão falsa, nesse caso, tornando o curso menos valioso do ponto de vista da aprendizagem que buscamos aqui.
Além disso como a versão do Tensorflow é diferente ele roda em 32 épocas (padrão) e mostra na tela: "1875/1875 [==============================] - 9s 4ms/step - loss: 0.4735 <keras.callbacks.History at 0x7f7155107590>" Dando a impressão de que não foram treinadas todas as 60.000 imagens, mas 32*1875 = 60.000