人工智能中的马尔可夫决策过程:算法与扩展
1. 关系动态影响图语言(RDDL)
RDDL自2011年起被用于概率规划竞赛。它和PPDDL一样基于一阶逻辑,但不像PPDDL那样以动作为中心。因此,用RDDL对所有动作共有的效果或与动作无关的效果进行建模更为容易。从语义上讲,RDDL表达式更接近动态贝叶斯网络(DBN)的表达式,因为状态变量的值是单独更新的,而在PDDL中,状态变量组是同时更新的。
2. 算法与规划器
解决内涵马尔可夫决策过程(MDP)的算法主要分为两类:概率方法和确定性方法。
2.1 概率方法
这类算法主要依赖代数决策图(ADD),它能简洁地表示布尔变量的实函数,可高效表示基于DBN的MDP的转移函数、奖励函数和价值函数。ADD常与有序二元决策图(OBDD)结合使用,OBDD用于高效表示布尔变量的布尔函数,适合表示优化后的MDP策略。
许多经典的MDP解决方案算法已被改编用于用DBN建模的内涵MDP。这些改编通常在BDD/OBDD框架内重新定义代数贝尔曼算子。与经典MDP不同,应用于内涵MDP的算子通过对逻辑公式使用回归算子来处理状态组。主要开发的算法有:
- SPUDD(Hoey等人,1999):价值迭代算法的改编。
- APRICODD(St - Aubin等人,2000):SPUDD的近似算法。
- sLAO∗(Feng和Hansen,2002)。
- sRTDP(Feng等人,2003)。
- FODD - PLANNER(Joshi等人,2010):基于一阶决策图,能以更少的计算资源计算最优解。
然而,基于决策图的方法存
超级会员免费看
订阅专栏 解锁全文
1031

被折叠的 条评论
为什么被折叠?



