Nas aulas anteriores eu havia entendido que usaríamos o softmax para construir uma distribuição de probabilidade para os casos em que o output tem mais de uma camada, que seria na classificação multicamadas. Por que continuamos a utilizá-lo na regressão?