解决(PO)MDPs和最优控制问题的期望最大化方法
1. 引言
近年来,高效概率推理技术取得了显著进展,尤其是在利用离散和连续问题域的结构(如因子化、分层或关系结构)方面。这些技术可用于解决以结构化动态贝叶斯网络(DBN)形式表述的马尔可夫决策过程(MDPs)或部分可观测马尔可夫决策过程(POMDPs)。
规划与推理面临着一些共同的挑战,例如扩展到由多个状态变量构成的大状态空间,或在连续或混合连续 - 离散状态空间中实现规划(或推理)。规划领域发展出了诸如因子化马尔可夫决策过程、抽象化和环境关系模型等技术;推理技术方面则有消息传递算法、变分方法、近似信念表示和算术编译等。
虽然之前有一些将概率推理应用于决策的尝试,但都存在一定的局限性。我们提出了一个框架,将无限期MDP(或一般DBN)中最大化折扣预期未来回报的问题转化为相关有限时间MDP混合模型中的似然最大化问题,从而使用期望最大化(EM)算法计算最优策略。
2. 马尔可夫决策过程与似然最大化
马尔可夫决策过程是关于状态 ( s_t )、动作 ( a_t ) 和奖励 ( r_t ) 随机变量的随机过程,由初始状态分布 ( P(s_0 = s) )、转移概率 ( P(s_{t + 1} = s’ | a_t = a, s_t = s) )、奖励概率 ( P(r_t = r | a_t = a, s_t = s) ) 和策略 ( P(a_t = a | s_t = s; \pi) = \pi_{as} ) 定义。
解决MDP的目标是找到无限期DBN的参数 ( \pi ),以最大化期望未来回报 ( V_{\pi} = E{\sum_{t = 0}^{\infty} \ga
超级会员免费看
订阅专栏 解锁全文
4890

被折叠的 条评论
为什么被折叠?



