82、基于线性规划的最优规划启发式方法

基于线性规划的最优规划启发式方法

1. 引言

在规划领域,有一种基于线性规划(LP)的启发式方法,它在处理超订阅规划问题时表现卓越,尤其是当面临非均匀动作成本、目标效用以及目标效用之间的依赖关系时。这种启发式方法的推广应用,能带来前沿的性能表现。

2. 动作选择公式化

为了便于开展研究,我们采用多值流(布尔流是其特殊情况)来进行松弛开发,并选择SAS+形式主义作为研究背景,而非常见的STRIPS/ADL形式主义。SAS+通过动作的持续条件和效果来定义动作,持续条件描述了在动作执行期间哪些变量必须保持特定值,效果则描述了动作的前置条件和后置条件。

为了简化规划与网络流之间的联系,我们将注意力限制在SAS+的一个子类上,即每个对某个流有后置条件的动作,也对该流有前置条件。需要强调的是,这一限制只是为了便于阐述,很容易去除。

2.1 符号表示

我们将SAS+规划任务定义为一个元组Π = ⟨C, A, s0, s∗⟩,各部分含义如下:
- C :是一个有限的状态变量集合,即C = {c1, …, cn}。每个状态变量c都有一个关联的域Vc和一个隐式定义的扩展域V + c = Vc ∪{u},其中u表示未定义的值。对于每个状态变量c,s[c]表示状态s中c的值。当且仅当s[c] ≠ u时,称c的值在状态s中是定义的。总状态空间S = Vc1 × … × Vcn和部分状态空间S+ = V + c1 × … × V + cn是隐式定义的。
- A :是一个有限的动作集合,动作形式为⟨pre, post, prev⟩,其中pre表示前

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值