45、可扩展的多智能体强化学习架构

可扩展的多智能体强化学习架构

1. 强化学习基础概念

在多智能体强化学习场景中,环境会产生下一个状态,并为每个智能体提供反馈。每个智能体在一个回合中的累积奖励 $G_i^t$ 可以表示为:
$G_i^t = \sum_{k=0}^{\infty} \gamma^k r_i^{t + k + 1}$

基于此,策略 $\pi$ 的状态价值函数和动作价值函数可以分别定义为:
$v_i^{\pi}(s) = E_{\pi}[G_t|s]$
$q_i^{\pi}(s, a_i^t) = E_{\pi}[G_t|s, a_i^t] = E_{\pi}[r_i^t + v_i^{\pi}(s’)]$

其中,$s’$ 是在时间 $t$ 时根据概率 $\pi$ 从 $s$ 转移到的下一个状态。

2. 策略梯度定理与演员 - 评论家架构

策略梯度(PG)方法是强化学习的一个分支。若策略 $\pi$ 关于其参数 $\theta$ 可微,则策略可参数化为 $\pi_{\theta}(a|s)$。PG 方法的目标是找出最优随机策略 $\pi_{\theta}^*: S \times A \to [0, 1]$,以最大化性能指标 $J(\theta) = v_{\pi_{\theta}}(s_0)$,其梯度为:
$\nabla_{\theta}J(\theta) = E_{\pi, \mu}[G_t \nabla_{\theta} \log \pi_{\theta}(a|s)]$

为显著降低梯度的方差,可使用参数化基线 $b_{v_{\omega}}(s)$,将 PG 方法应用于现代演员 - 评论家架构:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值