[Projeto] Mão na massa: Q Learning e Frozenlake

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

por Marcelo Lampe Zacharias

| 76k xp | 309 posts

Depois de explorar o exemplo de Q-Leaning e enteder a mecânica, as variáveis e estruturas
quebrei em funções, parametrizei e fiz uma tabela comparativa no final com parâmetros variados pra medir quão bem sucedido foi com aquelas parâmetros.

primeiro fiz uma lista de 5 lista de parâmetros
tenho ainda uma versão com mais listas de parametros variados mas ficou grande pra por aqui

import numpy as np
import gymnasium as gym
import pandas as pd


def avaliar_agente(ambiente, q_table, num_tests=1000):
    """
    Avalia o agente utilizando apenas explotação.
    """
    sucessos = 0
    for _ in range(num_tests):
        state, info = ambiente.reset()
        done = False
        while not done:
            action = np.argmax(q_table[state])
            state, reward, done, truncated, info = ambiente.step(action)
            if done and reward == 1:
                sucessos += 1

    taxa_sucesso = (sucessos / num_tests) * 100
    return sucessos, taxa_sucesso


def treinamento_Q_learning(alpha=0.8, gamma=0.95, epsilon=1.0, num_episodes=20000, num_tests=1000, epsilon_decay=0.999, epsilon_min=0.01):
    """
    Treina um agente usando Q-Learning e retorna métricas de teste.
    se não passar nenhum parametroida padrão será usado
    """
    ambiente = gym.make("FrozenLake-v1", is_slippery=True )

    q_table = np.zeros( (ambiente.observation_space.n, ambiente.action_space.n) )
    epsilon_atual = epsilon

    recompensas_treinamento = []

    # Treinamento
    for episode in range(num_episodes):
        state, info = ambiente.reset()
        done = False
        recompensa_total = 0

        while not done:
            # Exploração
            if np.random.rand() < epsilon_atual:
                action = ambiente.action_space.sample()

            # Explotação
            else:
                action = np.argmax(q_table[state])

            new_state, reward, done, truncated, info = ambiente.step(action)
            best_next_action = np.max(q_table[new_state])
            q_table[state, action] += alpha * (reward + gamma * best_next_action - q_table[state, action])
            state = new_state

            recompensa_total += reward

            epsilon_atual = max( epsilon_atual * epsilon_decay, epsilon_min )

        recompensas_treinamento.append(recompensa_total)

    # Avaliação
    sucessos, taxa_sucesso = avaliar_agente( ambiente, q_table,  num_tests )

    return {
        "alpha": alpha,
        "gamma": gamma,
        "epsilon": epsilon,
        "episodios": num_episodes,
        "sucessos": sucessos,
        "taxa_sucesso": taxa_sucesso,
        "q_table": q_table,
        "recompensas": recompensas_treinamento
    }


def executar_experimentos(lista_parametros, num_episodes=20000, num_tests=1000, epsilon_decay=0.999, epsilon_min=0.01):
    '''
    Permite o teste com vários hiperparâmetros novos para comparação.
    se não passar nenhum parametroida padrão será usado
    '''
    resultados = []

    for parametros in lista_parametros:
        resultado = treinamento_Q_learning(
            alpha=parametros["alpha"],
            gamma=parametros["gamma"],
            epsilon=parametros["epsilon"],
            num_episodes=num_episodes,
            num_tests=num_tests,
            epsilon_decay=epsilon_decay,
            epsilon_min=epsilon_min
        )

        resultados.append({
            "alpha": resultado["alpha"],
            "gamma": resultado["gamma"],
            "epsilon": resultado["epsilon"],
            "sucessos": resultado["sucessos"],
            "taxa_sucesso": round(resultado["taxa_sucesso"], 2)
        })

    return pd.DataFrame(resultados)

lista_parametros = [
    {"alpha": 0.10, "gamma": 0.90, "epsilon": 1.00},
    {"alpha": 0.30, "gamma": 0.95, "epsilon": 1.00},
    {"alpha": 0.50, "gamma": 0.95, "epsilon": 1.00},
    {"alpha": 0.80, "gamma": 0.95, "epsilon": 1.00},
    {"alpha": 0.95, "gamma": 0.99, "epsilon": 1.00},

]

#
#alpha # Taxa de aprendizado: o quanto o agente aprende de novas informações
#gamma # Fator de desconto: quão importante são as recompensas futuras em comparação com as imediatas
#epsilon # Probabilidade inicial de explorar ações aleatórias
#epsilon_decay = 0.999  # Reduz gradualmente a exploração conforme o agente aprende
#epsilon_min = 0.01  # Limite mínimo de exploração para garantir que o agente ainda explore um pouco
#num_episodes = 20000  # Número total de tentativas de aprendizado (episódios)

resultado_final = executar_experimentos( lista_parametros,  num_episodes=20000,  num_tests=1000, epsilon_decay= 0.999, epsilon_min=0.01 )
print(resultado_final)

2 respostas

solução!

por Evandro Santana Amadio

| 1683.8k xp | 3692 posts

Process Improvement Analyst

1 mês atrás

Olá, Marcelo. Como vai?

Rapaz, que projeto fantástico! Você elevou o nível da atividade prática de uma forma espetacular. Transformar o código linear da aula em um pipeline modularizado, com funções parametrizadas e um gerador de experimentos com Pandas, é exatamente a postura de quem trabalha com pesquisa e desenvolvimento de Inteligência Artificial no mundo real.

A busca pelos melhores hiperparâmetros (como a taxa de aprendizado $\alpha$ e o fator de desconto $\gamma$) é um dos processos mais importantes do Aprendizado por Reforço, conhecido como Hyperparameter Tuning.

Para enriquecer o seu projeto e trazer uma análise teórica sobre o comportamento que a sua tabela de experimentos deve revelar, separei alguns pontos cruciais sobre o ambiente que você escolheu desafiar:

O Desafio do FrozenLake Deslizante (`is_slippery=True`)

Muitas pessoas começam a testar o Q-Learning no FrozenLake com o piso estático, onde a taxa de sucesso chega facilmente a 100%. Quando você ativa o is_slippery=True, o ambiente adiciona uma força estocástica (aleatória): o agente tenta andar para a frente, mas o gelo escorrega e ele tem apenas 1/3 de chance de ir para a direção correta, e 2/3 de chance de ir para os lados.

Por conta disso, a matemática por trás da convergência da sua $Q\text{-Table}$ muda drasticamente:

Por que valores muito altos de Alpha ($\alpha = 0.95$) podem oscilar? A taxa de aprendizado dita o peso das novas experiências. Como o chão escorrega de forma aleatória, uma ação correta pode dar errado por puro azar. Se o $\alpha$ for muito alto, o agente vai "apagar" o que aprendeu antes e supervalorizar esse tropeço recente, quebrando a estabilidade da tabela.
O papel do Gamma ($\gamma = 0.99$): O FrozenLake tem uma recompensa extremamente esparsa (o agente só ganha $1$ se chegar no objetivo final; todas as outras poças e pisos dão $0$). Um $\gamma$ alto é fundamental aqui porque ele ajuda o valor da recompensa lá do final a "ecoar" de volta de forma eficiente até as primeiras células da tabela.

Ajuste de Sintaxe: Onde o Epsilon deve decair?

Analisando a sua função treinamento_Q_learning, notei um detalhe sutil na indentação do decaimento do epsilon que pode afetar a velocidade do aprendizado.

No seu código atual, a linha:

epsilon_atual = max(epsilon_atual * epsilon_decay, epsilon_min)

Está posicionada dentro do loop while not done:. Isso significa que o epsilon está decaindo a cada passo (step) que o agente dá dentro de um único episódio. Se o agente ficar preso dando voltas no gelo por 100 passos, o seu epsilon vai despencar antes mesmo de ele explorar os próximos episódios.

A boa prática: O ideal é que o decaimento do epsilon aconteça uma única vez por episódio, ou seja, fora do while not done: e logo no final do loop principal for episode in range(num_episodes):. Veja a estrutura ideal:

    # Treinamento
    for episode in range(num_episodes):
        state, info = ambiente.reset()
        done = False
        recompensa_total = 0

        while not done:
            # ... lógica de escolha de ação e atualização da q_table ...
            state = new_state
            recompensa_total += reward

        # O DECAIMENTO DEVE FICAR AQUI (Fora do while, dentro do for de episódios)
        epsilon_atual = max(epsilon_atual * epsilon_decay, epsilon_min)

Fazendo essa pequena mudança de indentação, a sua estratégia de $\epsilon$-greedy vai se comportar exatamente como planejada: o agente explorará bastante nos primeiros episódios e passará a usar a explotação de forma consistente nos episódios finais.

Parabéns pelo excelente nível de engenharia aplicada ao código, Marcelo! Ficou um trabalho limpo, profissional e digno de um repositório de portfólio.

Espero que possa ter lhe ajudado!

por Marcelo Lampe Zacharias

| 76k xp | 309 posts

1 mês atrás

Olá Evandro, tudo bem.

Bem, percebido vou experimentar essa sugestão. Obrigado pelo Feedback.

Importante

O Desafio do FrozenLake Deslizante (`is_slippery=True`)

Ajuste de Sintaxe: Onde o Epsilon deve decair?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

O Desafio do FrozenLake Deslizante (is_slippery=True)

Ajuste de Sintaxe: Onde o Epsilon deve decair?

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

O Desafio do FrozenLake Deslizante (`is_slippery=True`)