36、智能电网自动发电控制中的安全博弈研究

智能电网AGC安全博弈分析

智能电网自动发电控制中的安全博弈研究

1. 最优策略计算

在自动发电控制(AGC)系统的安全博弈中,存在一个重要特性:$p_D(s) = p_D(s(t))$ 对于所有的 $t$ 都是最优的,这意味着无需为每个阶段单独计算最优策略。可以使用动态规划递归地解决问题,以获得平稳最优策略,即每阶段求解一个零和矩阵博弈。最优策略可能是混合的,也就是针对每个状态 $s$ 具有随机性。

在给定阶段 $t$,最优成本 $Q_t(a, d, s)$(为简化符号,省略了 $s$、$a$ 和 $d$ 对 $t$ 的依赖)可通过动态规划递归迭代计算:
[
Q_{t + 1}(a, d, s) = G_{a,d}(s) + \gamma \sum_{s’ \in S} M_{s,s’}(a, d) \cdot \min_{p_D(s’)} \max_{a} \sum_{d \in A_D} Q_t(a, d, s’) p_D^d(s’)
]
其中,$p_D^d(s’)$ 是 $p_D(s’)$ 中对应于 $d$ 的元素。当 $t \to \infty$ 时,上述公式收敛到最优的 $Q^*$。

为实现该公式,采用价值迭代算法,具体步骤如下:
1. 给定任意的 $Q_0$ 和 $V$。
2. 重复以下操作:
- 对于 $a \in A_A$ 和 $d \in A_D$,根据以下两个公式更新 $V$ 和 $Q$:
- $V(s) = \min_{p_D(s)} \max_{a} \sum_{d \in A_D} Q_t(a, d, s) p_D^d(s)$
- $Q_{t + 1}(a, d, s) = G_{a,d}(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值