可扩展的多智能体强化学习架构
1. 强化学习基础概念
在多智能体强化学习场景中,环境会产生下一个状态,并为每个智能体提供反馈。每个智能体在一个回合中的累积奖励 $G_i^t$ 可以表示为:
$G_i^t = \sum_{k=0}^{\infty} \gamma^k r_i^{t + k + 1}$
基于此,策略 $\pi$ 的状态价值函数和动作价值函数可以分别定义为:
$v_i^{\pi}(s) = E_{\pi}[G_t|s]$
$q_i^{\pi}(s, a_i^t) = E_{\pi}[G_t|s, a_i^t] = E_{\pi}[r_i^t + v_i^{\pi}(s’)]$
其中,$s’$ 是在时间 $t$ 时根据概率 $\pi$ 从 $s$ 转移到的下一个状态。
2. 策略梯度定理与演员 - 评论家架构
策略梯度(PG)方法是强化学习的一个分支。若策略 $\pi$ 关于其参数 $\theta$ 可微,则策略可参数化为 $\pi_{\theta}(a|s)$。PG 方法的目标是找出最优随机策略 $\pi_{\theta}^*: S \times A \to [0, 1]$,以最大化性能指标 $J(\theta) = v_{\pi_{\theta}}(s_0)$,其梯度为:
$\nabla_{\theta}J(\theta) = E_{\pi, \mu}[G_t \nabla_{\theta} \log \pi_{\theta}(a|s)]$
为显著降低梯度的方差,可使用参数化基线 $b_{v_{\omega}}(s)$,将 PG 方法应用于现代演员 - 评论家架构:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



