随机库存控制中部分可观测马尔可夫决策过程的文化算法
1. 引言
强化学习和进化计算是解决部分可观测马尔可夫决策过程(POMDPs)的两种竞争方法,POMDPs 在人工智能的许多领域中都会出现。本文将介绍这两种方法的一种新的混合方法,并将其应用于随机库存控制问题。
1.1 POMDPs
马尔可夫决策过程(MDPs)可以对结果部分随机、部分受智能体控制的顺序决策情况进行建模。MDP 的状态具有马尔可夫属性:如果已知时间 t 时 MDP 的当前状态,那么到时间 t + 1 时向新状态的转移与所有先前状态无关。MDP 可以通过将其建模为线性规划在多项式时间内(相对于其状态空间的大小)求解,但多项式的阶数足够大,使得在实践中求解困难。
如果去除马尔可夫属性,就得到了部分可观测马尔可夫决策过程(POMDP),一般来说,POMDP 在计算上是难以处理的。这种情况在许多应用中都会出现,可能是由于部分知识导致的,例如机器人通常必须仅使用对其环境的部分知识进行导航。机器维护和不确定性下的规划也可以建模为 POMDP。
形式上,POMDP 是一个元组 ⟨S, A, T, R, O, Ω⟩,其中 S 是状态集,A 是动作集,Ω 是观测集,R : S×A → ℜ 是奖励函数,T : S×A → Π(S) 是转移函数,Π(·) 表示有限集上的离散概率分布集。在每个时间段 t,环境处于某个状态 s ∈ S,智能体采取动作 a ∈ A,这会以概率 P(s′|s, a) 转移到状态 s′,产生由 R 给出的即时奖励,并对环境产生由 T 给出的影响。智能体的决策基于其由 O : S × A → Π(Ω) 给出的观测。
在解决 POMDP 时,目标是找到
超级会员免费看
订阅专栏 解锁全文
802

被折叠的 条评论
为什么被折叠?



