Mão na massa: identificando objetos com MobileNetV2

Marcelo Braga Stahl · 2026-06-13 16:39

import gymnasium as gym import numpy as np import random env = gym.make("FrozenLake-v1", is_slippery=True) print("Número de estados:", env.observation_space.n) print("Número de açõ

state, info = env.reset() for step in range(max_steps): if random.uniform(0, 1) < epsilon: action = env.action_space.sample() else: action = np.argmax(q_table[state]) next_state, reward, terminated, truncated, info = env.step(action) old_value = q_table[state, action] next_max = np.max(q_table[next_state]) q_table[state, action] = old_value + alpha * ( reward + gamma * next_max - old_value ) state = next_state if terminated or truncated: break epsilon = max(epsilon_min, epsilon * epsilon_decay)

state, info = env.reset() for step in range(max_steps): action = np.argmax(q_table[state]) state, reward, terminated, truncated, info = env.step(action) if terminated or truncated: if reward == 1: successes += 1 break

Olá, Marcelo. Como vai?

Existe apenas um pequeno detalhe de contexto na sua publicação: você mencionou no título a MobileNetV2 (que é uma rede neural voltada para Visão Computacional), mas o seu código e os seus resultados mostram um excelente experimento prático de Aprendizado por Reforço utilizando o algoritmo Q-Learning no ambiente FrozenLake do Gymnasium!

Analisando os seus resultados, o seu primeiro teste foi um sucesso fantástico, alcançando uma taxa de 71.40% em um ambiente que está configurado como is_slippery=True (onde o chão escorrega e a ação escolhida nem sempre é executada, adicionando um fator estocástico/aleatório bem complexo).

No entanto, o ponto mais rico da sua postagem está no segundo teste, onde a taxa de sucesso caiu para 0.00% e a sua Q-Table terminou completamente zerada. Essa é uma excelente oportunidade para analisarmos a fundo o impacto dos hiperparâmetros no Aprendizado por Reforço:

O decaimento do Epsilon fora do loop: Olhando com atenção para a indentação do seu código, a linha epsilon = max(epsilon_min, epsilon * epsilon_decay) ficou posicionada fora do loop principal de episódios (for episode in range(num_episodes):). No seu primeiro teste, isso não impediu o aprendizado porque o gamma = 0.99 (fator de desconto) manteve a recompensa futura conectada aos estados anteriores por muito tempo, permitindo que a tabela se propagasse mesmo com muita exploração.
O impacto da redução do Fator de Desconto (Gamma): No segundo teste, você reduziu o gamma para 0.79. O parâmetro Gamma define o peso que o agente dá para as recompensas futuras. Um gamma baixo faz o agente ser "imediatista". Como no FrozenLake a recompensa só acontece no último passo (ao encontrar a meta), com um gamma menor associado ao problema do epsilon travado no topo do loop, o sinal da recompensa simplesmente não teve força matemática para voltar e atualizar os estados iniciais. O agente ficou preso explorando aleatoriamente e nunca consolidou o caminho.

Para corrigir a estrutura e garantir que o seu agente aprenda de forma consistente em qualquer variação de hiperparâmetros, a atualização do epsilon precisa acontecer exatamente no final de cada episódio (alinhada dentro do primeiro for).

Veja a correção da estrutura do bloco no trecho abaixo:

# ... trecho anterior do loop ...
    state = next_state

    if terminated or truncated:
        break
        
  # CORREÇÃO: Esta linha deve ser indentada para rodar DENTRO do loop de episódios
  epsilon = max(epsilon_min, epsilon * epsilon_decay)

print("Treinamento concluído!")

Fazer esses testes mudando os pesos de alpha (taxa de aprendizado) e gamma é exatamente o papel de um cientista de dados para entender a sensibilidade do algoritmo. Parabéns por rodar o experimento e expor essa diferença drástica de comportamento da tabela!

Espero que possa ter lhe ajudado!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP