20、马尔可夫决策过程中的公平性定量分析与偏序约简

马尔可夫决策过程中的公平性定量分析与偏序约简

1. 基本概念
  • 端组件与调度器 :对于每个端组件 (E = (T, A)),存在一个有限内存调度器 (U_E),使得对于所有状态 (t \in T),有 (Pr_{U_E}^t {\pi \in Path_{inf} : Lim(\pi) = E} = 1)。调度器 (U_E) 的模式是函数 (m : T \to N),满足 (0 \leq m(t) < k_t) 对于所有 (t \in T)。决策和下一个模式函数分别定义为 (dec(m, s) = \alpha_{s, m(s)}) 和 (next(m, s) = m’),其中 (m’(t) = m(t)) 如果 (t \in T \setminus {s}) 且 (m’(s) = (m(s) + 1) \bmod k_s)。
  • 公平性约束
    • 单个公平性约束是一个对 ((H, K)),其中 (H, K \subseteq Act \cup 2^{AP}),可视为强或弱公平性约束。
    • 强公平性约束 ((H, K)) 表示为 (\square \diamond H \to \square \diamond K),弱公平性约束表示为 (\diamond \square H \to \square \diamond K)。
    • 通用公平性条件 (F = (SF, WF)),其中 (SF) 和 (WF) 是单个公平性约束的集合。
    • 无限路径 (\pi) 是公平的,当且仅当 (inf(\pi) \vdash_
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值