马尔可夫决策过程中的公平性定量分析与偏序约简
1. 基本概念
- 端组件与调度器 :对于每个端组件 (E = (T, A)),存在一个有限内存调度器 (U_E),使得对于所有状态 (t \in T),有 (Pr_{U_E}^t {\pi \in Path_{inf} : Lim(\pi) = E} = 1)。调度器 (U_E) 的模式是函数 (m : T \to N),满足 (0 \leq m(t) < k_t) 对于所有 (t \in T)。决策和下一个模式函数分别定义为 (dec(m, s) = \alpha_{s, m(s)}) 和 (next(m, s) = m’),其中 (m’(t) = m(t)) 如果 (t \in T \setminus {s}) 且 (m’(s) = (m(s) + 1) \bmod k_s)。
- 公平性约束 :
- 单个公平性约束是一个对 ((H, K)),其中 (H, K \subseteq Act \cup 2^{AP}),可视为强或弱公平性约束。
- 强公平性约束 ((H, K)) 表示为 (\square \diamond H \to \square \diamond K),弱公平性约束表示为 (\diamond \square H \to \square \diamond K)。
- 通用公平性条件 (F = (SF, WF)),其中 (SF) 和 (WF) 是单个公平性约束的集合。
- 无限路径 (\pi) 是公平的,当且仅当 (inf(\pi) \vdash_
超级会员免费看
订阅专栏 解锁全文
1168

被折叠的 条评论
为什么被折叠?



