Curiosamente tive uma redução da perda colocando as camadas adicionais como mostrado na aula. Fiquei confusão do porquê isso ter acontecido. Alguém teria alguma ideia?
modelo_teste = keras.Sequential( [keras.layers.Flatten(input_shape = (28, 28) ),
keras.layers.Dense(256, activation = tensorflow.nn.relu),
keras.layers.Dense(128, activation = tensorflow.nn.relu),
keras.layers.Dense(64, activation = tensorflow.nn.relu),
keras.layers.Dense(10, activation = tensorflow.nn.softmax) ])
#Vamos dar um compile e ver a perda
modelo_teste.compile(optimizer = 'adam', loss = 'sparse_categorical_crossentropy')
modelo_teste.fit(x_treino, y_treino)
output:
60000/60000 [==============================] - 6s 105us/sample - loss: 0.4841
<tensorflow.python.keras.callbacks.History at 0x7f60c5a7d3c8>
A perda do modelo com 3 camadas foi 0.86.