[Sugestão] Conversão para de javascript para Python da simulação SoftMax

#Simulação do sofmax convertido pra python import numpy as np def softmax(values): values = np.array(values) exp_values = np.exp(values - np.max(values)) #o menos é para evitar overflow, seria um problema maior em C ou java return exp_values / np.sum(exp_values) logits = [2.0, 1.0, 0.1] probabilities = softmax(logits)

Olá, Marcelo. Como vai?

Excelente contribuição! A conversão da simulação da função Softmax de JavaScript para Python ficou impecável e extremamente "pythônica", aproveitando muito bem o poder de vetorização da biblioteca NumPy.

A Softmax é um dos pilares mais importantes do Aprendizado de Máquina moderno e das arquiteturas de LLMs (como o GPT e o Claude), sendo a responsável por transformar pontuações brutas (logits) em uma distribuição de probabilidades que faz sentido matemático.

Para enriquecer ainda mais a sua postagem no fórum e ajudar os colegas a compreenderem o impacto visual e lógico do seu código, preparei um detalhamento do que acontece por trás dessa conversão:

O Papel Matemático da Softmax

O que a sua função faz é pegar um vetor de números reais e esmagá-lo (squash) em um novo vetor onde cada elemento está entre 0 e 1, e a soma de todos os elementos é obrigatoriamente igual a 1 (ou seja, 100%).

Ao aplicar a sua função no exemplo dos logits = [2.0, 1.0, 0.1], o fluxo de transformação segue estas etapas na memória do computador:

Exponenciação (np.exp): Garante que todos os valores negativos ou positivos se transformem em números estritamente positivos. Além disso, ela atua ampliando a diferença: o maior valor ganha um peso proporcionalmente muito maior do que os outros.
Divisão pela Soma (np.sum): Funciona como a normalização. Ao dividir cada valor exponencial pela soma total de todos eles, o NumPy gera as probabilidades finais.

Seu Insight sobre Overflow foi Perfeito!

Gostei muito da sua nota no comentário do código: values - np.max(values). Essa é uma prática padrão na engenharia de software para IA.

Como a função exponencial (e^x) cresce de forma assustadoramente rápida, se um modelo de linguagem gerasse um logit alto como 880, o cálculo de e^880 estouraria o limite de armazenamento numérico de ponto flutuante do computador (overflow), resultando em um erro de NaN (Not a Number).

Ao subtrair o valor máximo de todos os elementos antes de aplicar a exponencial, o maior valor do vetor vira 0 (e e^0 = 1), enquanto todos os outros viram números negativos (cujo resultado exponencial fica seguro entre 0 e 1). Matematicamente, o resultado final da proporção continua exatamente o mesmo, mas o seu código se torna estável e indestrutível.

Parabéns pelo excelente nível técnico do compartilhamento, Marcelo! Com certeza vai clarear muito a mente de quem está estudando como os tokens são previstos.

Espero que possa ter lhe ajudado!

Importante

O Papel Matemático da Softmax

Seu Insight sobre Overflow foi Perfeito!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

O Papel Matemático da Softmax

Seu Insight sobre Overflow foi Perfeito!

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP