Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)
2
respostas

[Sugestão] correção de texto

e-GREED creio que era pra ser epsilon-greedy no texto do tópico "O que aprendemos"

"Estratégias de exploração como E-GREED, Decaimento de exploração e UCB. "

2 respostas
solução!

Olá, Marcelo. Como vai?

Excelente observação! A sua sinalização está totalmente correta e o seu precioso olho clínico ajuda diretamente a manter a qualidade técnica dos materiais da Alura impecável.

O termo correto para a grafia da estratégia é, de fato, $\epsilon$-greedy (ou por extenso, epsilon-greedy), fazendo referência à letra grega epsilon ($\epsilon$), que representa a probabilidade matemática de o agente tomar uma ação aleatória em vez de escolher a melhor ação conhecida até o momento.

Escrever apenas e-GREED (com o "e" hífen) pode acabar gerando uma confusão na cabeça de quem está começando, fazendo parecer que o "e" vem de algo "eletrônico" ou algo do tipo, distanciando o aluno do conceito matemático real do Aprendizado por Reforço.

Para apoiar o seu excelente toque de correção e deixar o seu tópico no fórum ainda mais didático para a comunidade, vale a pena detalharmos brevemente como o $\epsilon$-greedy atua no dilema mais famoso da IA: o Exploration vs. Exploitation (Exploração vs. Explotação):


O Dilema do Agente Inteligente

No Aprendizado por Reforço, o agente precisa aprender a tomar decisões em um ambiente para maximizar uma recompensa acumulada. Ele enfrenta um conflito constante:

  • Exploitation (Explotação/Aproveitamento): O agente escolhe a ação que ele já sabe que dá a maior recompensa baseado no seu histórico. É o comportamento "ganancioso" (greedy).
  • Exploration (Exploração): O agente escolhe uma ação totalmente nova ou aleatória para descobrir se ela pode trazer uma recompensa ainda maior no longo prazo.

Como o $\epsilon$-greedy Resolve Isso?

A estratégia $\epsilon$-greedy introduz uma regra probabilística simples e elegante para balancear esse dilema através do valor de $\epsilon$ (um número entre 0 e 1):

  • Com uma probabilidade de $1 - \epsilon$, o agente faz Exploitation (escolhe o melhor caminho atual).
  • Com uma probabilidade de $\epsilon$, o agente faz Exploration (escolhe um caminho aleatório).

Se configurarmos um $\epsilon = 0.10$, significa que em 90% das vezes a IA vai aproveitar o conhecimento que já tem, e em 10% das vezes ela vai "tirar a sorte grande" e testar caminhos novos para aprender mais sobre o ambiente.

A sua sugestão de correção é cirúrgica e extremamente necessária para manter o rigor técnico do curso. Parabéns pela excelente contribuição com o fórum!

Espero que possa ter lhe ajudado!

Tamo junto obrigado pela explicação