非有向无环图(DAG)状向量加法系统马尔可夫决策过程(VASS MDPs)的终止复杂度
在非有向无环图(DAG)状的向量加法系统马尔可夫决策过程(VASS MDPs)中,情况变得复杂许多。以图3中的MDP为例,它有三个最大终结组件(MECs),分别为单元素集 ${p1}$、${p2}$ 和 ${f}$,且这三个MECs都具有线性终止复杂度。
下面考虑一个从配置 $p1(0, n)$ 开始的恶魔策略:
1. 选择循环操作,直至达到配置 $p1(2n, 0)$。
2. 转移到 $p2$,并执行其循环操作,直至进入 $p2(0, 4n)$。
3. 转移到 $r$,若随机因素使状态回到 $p1$,则再次执行循环操作,直至达到 $p1(8n, 0)$,依此类推,无穷循环。
显然,该策略最终会到达 $f$ 并终止。然而,其期望终止时间至少为:
[
\frac{3}{4} \sum_{i = 0}^{\infty} (\frac{1}{4})^i \cdot 4^{i + 1} = 3 \sum_{i = 0}^{\infty} (\frac{4}{4})^i = \infty
]
由此可见,证明一般VASS的线性终止复杂度不能仅仅通过分析单个MECs来实现。而且,它关键取决于瞬态(非MEC)状态中的具体概率。在图3中,如果从 $r$ 到 $f$ 的转移概率小于 $\frac{1}{4}$,那么终止时间将是有限的(且为线性)。
MDPs的瞬态行为通常相当复杂,对于具有一般结构的VASS MDPs,线性恶魔终止复杂度是否可判定尚不清楚。这是一个极具吸引力但又复杂的未来研究方向。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



