30、通过分层强化学习实现序列自动分割

通过分层强化学习实现序列自动分割

1. 引言

顺序行为(顺序决策过程)对于认知主体至关重要。当主体没有特定领域的先验知识时,使用强化学习(RL)来获取顺序行为不仅合适,而且必要。由于现实世界中事件的复杂性和不同尺度,需要一种分层强化学习方法,以产生与领域结构相对应的动作序列和子序列。这种方法在促进学习和处理非马尔可夫依赖方面的有效性已被多次证明。

不同层次的动作子序列对应不同的抽象层次,因此子序列有助于传统人工智能中研究的分层规划。然而,我们注意到强化学习中预先确定结构层次的缺点,包括成本高、缺乏灵活性和通用性。因此,更通用的方法是仅基于一些通用结构(如固定的层数)自动开发动作层次结构,并通过强化学习自动调整结构细节及其参数。这一过程相当于自动分割动作序列(自分割),并创建动作子序列的分层组织。

我们需要解决以下问题:
- 序列的自动(自)分割,每个片段由不同的模块处理,以减少或消除非马尔可夫时间依赖。
- 自动开发可在序列的不同位置和/或不同序列中使用的公共子序列(即子程序或子任务),以简化非马尔可夫依赖并形成紧凑表示。
- 尽量减少或不使用特定领域的先验知识进行分割,因为依赖先验知识会导致缺乏通用性。

2. 强化学习回顾

强化学习(RL)最近受到了广泛关注,它可以看作是值迭代动态规划(DP)的在线变体。DP 通常由一个 5 元组 (S, U, T, P, g) 定义,其中 S 是状态集,U 是动作集,T 是概率状态转移函数,P 是静态策略,g 是成本(或奖励)函数。

在 DP 中,有一个离散时间系统,其状态转移取决于主体执行的动作。在概率意义上,马尔可夫过程用于确定动作执行后的新状态

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值