智能电网中的在线网络攻击检测:基于强化学习的解决方案
1. 引言
在网络物理系统领域,利用强化学习(RL)进行漏洞分析的研究逐渐增多。我们可以从防御者和攻击者两个角度同时考虑问题,这对应于博弈论的设定。本文将介绍一种基于无模型强化学习框架的在线网络攻击检测算法,该算法可用于部分可观测马尔可夫决策过程(POMDP)。此算法具有通用性,无需攻击模型,能检测新的未知攻击类型。
2. 系统模型与状态估计
2.1 系统模型
假设一个由 N + 1 个母线组成的电网中有 K 个电表,通常 K > N 以提供必要的测量冗余来对抗噪声。其中一个母线作为参考母线,时间 t 时的系统状态表示为 $x_t = [x_{1,t}, \ldots, x_{N,t}]^T$,其中 $x_{n,t}$ 表示时间 t 时母线 n 的相角。时间 t 时电表 k 的测量值表示为 $y_{k,t}$,测量向量表示为 $y_t = [y_{1,t}, \ldots, y_{K,t}]^T$。基于广泛使用的线性直流模型,智能电网可以用以下状态空间方程建模:
$x_t = Ax_{t - 1} + v_t$ (8.1)
$y_t = Hx_t + w_t$ (8.2)
其中,$A \in R^{N×N}$ 是系统(状态转移)矩阵,$H \in R^{K×N}$ 是根据网络拓扑确定的测量矩阵,$v_t = [v_{1,t}, \ldots, v_{N,t}]^T$ 是过程噪声向量,$w_t = [w_{1,t}, \ldots, w_{K,t}]^T$ 是测量噪声向量。假设 $v_t$ 和 $w_t$ 是独立的加性高斯白噪声过程,$v_t \sim N(0, \sigma_v^
超级会员免费看
订阅专栏 解锁全文

17

被折叠的 条评论
为什么被折叠?



