零日蠕虫的最优成本、协作与分布式响应
1. 动态规划简介
动态规划(Dynamic Programming,DP)用于解决当前问题时,会平衡系统当前运行的低成本与未来高成本的不利影响。其基本模型是动态离散的,相关成本随时间累加。系统的演化可描述为:
[x_{k + 1} = f_k(x_k, u_k, w_k), k = 0, 1, \cdots, N - 1]
其中:
- (k) 为离散时间索引;
- (x_k) 是系统状态,总结了对未来优化相关的过去信息;
- (u_k) 是在时间 (k) 要选择的控制或决策变量;
- (w_k) 是随机参数,也称为干扰或噪声;
- (N) 是控制应用的次数或时间范围;
- (f_k) 是状态更新机制。
在时间 (k) 产生的成本记为 (g_k(x_k, u_k, w_k)),它是一个随机函数,因为依赖于 (w_k)。目标是最小化总期望成本:
[J_{\pi}(x_0) = E_{w_k}\left[g_N(x_N) + \sum_{k = 0}^{N - 1}g_k(x_k, u_k, w_k)\right]]
这通过找到一系列称为策略或控制律的函数 (\pi = {\mu_0, \cdots, \mu_{N - 1}}) 来实现,其中每个 (\mu_k(x_k) \to u_k),将系统从状态 (x_k) 转移到 (x_{k + 1}) 并最小化总期望成本。
动态规划算法:最优总成本由以下算法最后一步的 (J_0(x_0)) 给出,该算法从时期 (N - 1) 到时期 0 逆向进行:
[J_N(x_N) = g_N(x_N)] <
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



