决策模型的弱对比方法与大规模随机控制系统分析
1. 弱对比决策模型概述
在某些特殊情况下,如集合 (X) 为单元素集时,(V_n(*)) 可能无法提供有效信息,此时 (\varPhi_n(•)) 就成为了唯一的信息来源。通过与之前类似的证明思路应用于 (\varPhi_n(•)),相关结论依然成立。
1.1 自适应半马尔可夫决策模型示例
为了说明相关结果在不同场景中的适用性,下面介绍几个具体例子,包括分布式控制问题和排队控制问题。为了便于示例展示,我们将成本结构从转移成本结构切换到状态成本结构,即系统处于状态 (i) 并采取决策 (u) 时会产生成本 (c(i,u)),之前的结果也能自然地应用到这种稍具限制性的成本描述中。
1.1.1 马尔可夫链的自适应多层控制应用
这里将自适应算法应用于分层多智能体场景。首先回顾现有结果,马尔可夫系统控制结构的分散化会诱导出半马尔可夫模型。接着可以发现,之前的算法能够克服信息从下层向上层交换时的限制。
-
标准监督器问题
- 考虑一个受控离散时间随机过程 (x_t),其转移概率矩阵为 (P(u) = {P_{ij}(u(i))}),其中 (P_{ij}(u) = Pr[x_{t + 1} = j|x_t = i, u_t = u])。从状态 (x_t = i) 到 (x_{t + 1} = j) 的跳跃会产生成本 (c(i,j,u(i)))。假设强遍历性条件成立,策略 (\mu(•)) 下的长期平均成本定义为:
[J(\mu(•)) = \lim_{t \to \infty}
- 考虑一个受控离散时间随机过程 (x_t),其转移概率矩阵为 (P(u) = {P_{ij}(u(i))}),其中 (P_{ij}(u) = Pr[x_{t + 1} = j|x_t = i, u_t = u])。从状态 (x_t = i) 到 (x_{t + 1} = j) 的跳跃会产生成本 (c(i,j,u(i)))。假设强遍历性条件成立,策略 (\mu(•)) 下的长期平均成本定义为:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



