动态与任务无关的奖励塑造方法及交通信号控制的多智能体元强化学习策略
在强化学习领域,如何优化智能体的学习效率和性能一直是研究的重点。本文将介绍两种相关的技术方法,一是动态与任务无关的奖励塑造方法,二是用于交通信号控制的多智能体元强化学习方法。
动态与任务无关的奖励塑造方法
在部分可观测马尔可夫决策过程(POMDP)中,规划问题往往面临挑战,尤其是在需要长动作序列才能获得即时奖励的情况下。为了解决这一问题,研究人员提出了一种动态且与任务无关的奖励塑造方法(LDPG),用于离散POMDP。
实验评估标准
为了评估POMDP智能体在不同环境下的性能,研究采用了三个标准:平均累积奖励(ACR)、期望奖励(ER)和收敛速度。具体解释如下:
- 平均累积奖励(ACR) :较高的ACR表示学习准确。
- 期望奖励(ER) :较高的期望奖励表明在实现目标方面取得成功。
- 收敛速度 :更快的收敛意味着在1000个阶段内朝着目标经过更多的状态。
每个实验重复进行五次,并取结果的平均值。Q函数初始值设为零,折扣因子γ为0.95 ± 0.5。当执行时间超过1000个时间单位,或者两个值之间的绝对差值小于10⁻⁷时,算法停止。
实验内容及结果
- 实验1 :比较了POMDP智能体在标准奖励环境和采用奖励塑造(LDPG方法)环境中的性能。通过图2可以看到标准强化学习和LDPG方法的ACR结果,柱状图显示了每个领域基于ACR最终值的
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



