Por que foi utilizada a dim = -1 na função softmax()?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Por que foi utilizada a dim = -1 na função softmax()?
A dimensão do dado que flui na rede é B X N (tamanho do batch x tamanho da feature). O índice -1 se refere à última dimensão, ou seja, a dimensão da feature.