智能电网自动发电控制中的安全博弈研究
1. 最优策略计算
在自动发电控制(AGC)系统的安全博弈中,存在一个重要特性:$p_D(s) = p_D(s(t))$ 对于所有的 $t$ 都是最优的,这意味着无需为每个阶段单独计算最优策略。可以使用动态规划递归地解决问题,以获得平稳最优策略,即每阶段求解一个零和矩阵博弈。最优策略可能是混合的,也就是针对每个状态 $s$ 具有随机性。
在给定阶段 $t$,最优成本 $Q_t(a, d, s)$(为简化符号,省略了 $s$、$a$ 和 $d$ 对 $t$ 的依赖)可通过动态规划递归迭代计算:
[
Q_{t + 1}(a, d, s) = G_{a,d}(s) + \gamma \sum_{s’ \in S} M_{s,s’}(a, d) \cdot \min_{p_D(s’)} \max_{a} \sum_{d \in A_D} Q_t(a, d, s’) p_D^d(s’)
]
其中,$p_D^d(s’)$ 是 $p_D(s’)$ 中对应于 $d$ 的元素。当 $t \to \infty$ 时,上述公式收敛到最优的 $Q^*$。
为实现该公式,采用价值迭代算法,具体步骤如下:
1. 给定任意的 $Q_0$ 和 $V$。
2. 重复以下操作:
- 对于 $a \in A_A$ 和 $d \in A_D$,根据以下两个公式更新 $V$ 和 $Q$:
- $V(s) = \min_{p_D(s)} \max_{a} \sum_{d \in A_D} Q_t(a, d, s) p_D^d(s)$
- $Q_{t + 1}(a, d, s) = G_{a,d}(
智能电网AGC安全博弈分析
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



