Mão na massa: identificando objetos com MobileNetV2

PENHA POLETTO NUNES ANDRADE · 2026-06-22 20:16

!pip install gymnasium pygame import numpy as np import gymnasium as gym import random env = gym.make("FrozenLake-v1", is_slippery=True, render_mode=None) alpha = 0.8

while not done: # Política epsilon-greedy if random.uniform(0,1) < epsilon: action = env.action_space.sample() # explorar else: action = np.argmax(q_table[state]) # explorar # Executar ação next_state, reward, done, truncated, info = env.step(action) # Atualizar Q-table old_value = q_table[state, action] next_max = np.max(q_table[next_state]) new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max) q_table[state, action] = new_value state = next_state # Decaimento da exploração if epsilon > epsilon_min: epsilon *= epsilon_decay

Olá, Penha! Como vai?

Parabéns pela resolução da atividade!

Vi que você explorou o Q-Learning para aprendizado por reforço com Python, utilizou muito bem a política epsilon-greedy para equilibrar exploração e exploração e ainda compreendeu a importância da Q-table para armazenar os valores de ação-estado.

Uma dica interessante para o futuro é acompanhar a evolução da taxa de sucesso ao longo dos episódios para visualizar o aprendizado do agente. Assim:

success_rates = []
for episode in range(test_episodes):
    state, _ = env.reset()
    done = False
    while not done:
        action = np.argmax(q_table[state])
        state, reward, done, truncated, info = env.step(action)
        if done and reward == 1:
            successes += 1
    success_rates.append(successes / (episode+1))

print("Taxa de sucesso acumulada:", success_rates[-1])

Isso mostra como o agente melhora sua performance com o tempo.

Se quiser aprofundar ainda mais, algumas boas práticas são:

Testar ambientes diferentes: como Taxi-v3 ou CartPole-v1 para expandir o aprendizado.
Visualizar o ambiente: usar render_mode="human" para acompanhar as ações do agente.
Ajustar hiperparâmetros: como alpha, gamma e epsilon para encontrar o equilíbrio ideal.

Conteúdos relacionados

Ah, uma pergunta: você prefere acompanhar a evolução da taxa de sucesso para entender o aprendizado do agente ou acha mais interessante ajustar hiperparâmetros e comparar os resultados finais?

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP