50、基于对象上下文的θ - 包含关系及相关规划方法解析

基于对象上下文的θ - 包含关系及相关规划方法解析

1. 引言

在人工智能规划领域,不确定环境下的规划是当下的一个热门趋势。这是因为在实际环境中,行动的结果往往具有不确定性,并且智能体可能无法获取其内部状态的完整信息。在许多方法中,马尔可夫决策过程(MDPs)已成为不确定环境下规划的事实上的标准表示和计算模型。

解决不确定动态环境中的规划任务,即找到一个最优策略,该策略是一个为每个状态提供最优行动的函数。与经典人工智能规划不同,由于环境的不确定性和动态性,解决方案不能再简单地表示为一系列行动,因为无法保证一个行动会导致预期的状态。

近年来,已经设计出了几种高效的解决MDPs的技术:
- SPUDD :可以最优地解决具有数亿个状态的MDPs,表明通过利用问题的逻辑结构,大型MDPs通常可以得到最优解。
- 实时动态规划(RTDP)和符号LAO∗ :采用启发式搜索,将计算限制在从初始状态可达的状态上。

许多现实的规划问题最好用一阶术语表示。现有的解决一阶MDPs的规划系统可以分为两类:
| 类别 | 特点 | 优势 | 劣势 |
| ---- | ---- | ---- | ---- |
| 基于命题化的方法 | 对基础命题进行推理 | 在2004年和2006年国际规划竞赛中表现出色 | 当感兴趣的领域未完全指定或为无限时,无法完成领域命题化 |
| 无命题化系统 | 在提升层面操作,使用一阶结构进行推理 | 目前在某些类别的问题上优于第一类系统 | 系统数量较少 |

由于基于命题化的规划方法存在缺陷,并且提升

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值