31、序列分割与分层强化学习技术解析

序列分割与分层强化学习技术解析

1. AQ与CQ模块的原理与关系

在分层强化学习中,AQ(Action Q-value)模块用于估计从当前状态开始,若所有模块都遵循当前策略时所能获得的总强化值。它通过比较不同选择所带来的总体强化值,来学习选择较低层级的模块。而CQ(Control Q-value)模块则在不同情况下发挥作用,比如选择动作等。

从技术层面讲,在输入表示相同的情况下,CQ和AQ的值紧密相关,理论上只需要其中一个即可。然而,当存在超过两个层级时,或者不同层级采用不同的输入表示时,就需要将它们分开。另外,如果希望这些模块成为独立、自主的实体(代理),那么基于不同实体的独立学习,CQ和AQ的分离也是合理的。

2. 模块中的时间表示

在相关系统中,为了避免在存在过多时间依赖时进行过度分割,可能需要构建时间表示。一种方法是使用循环神经网络(RNN),如Elman在1990年提出的模型。RNN在以往的许多工作中被用于表示各种形式的时间依赖,但它存在一些缺点,例如学习时间长、可能不准确、泛化能力可能不佳等。理论上,RNN可以记忆任意长的序列,但实际上,由于精度限制,可记忆的序列长度相当有限。

作为RNN的一种更可行的替代方案,可以在强化学习中使用决策树。沿着McCallum(1996)的思路,当统计测试表明某个状态所涵盖的情况之间存在显著差异时,就对该状态进行分割。与先验指定非马尔可夫时间依赖(即提前确定哪些先前步骤是相关的)相比,这种方法更具广泛适用性,因为先验知识可能并不总是可用。与RNN相比,该方法可能更稳健,因为RNN中的时间表示可能会在几步之后迅速消失,从而难以处理长距离依赖。与使用全规模时间表示(如n - 折叠状态空间方法)相

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值