强化学习中的成本信号攻击与资源感知入侵响应策略
强化学习中的成本信号攻击
在强化学习(RL)中,成本信号的欺骗性伪造可能会带来潜在威胁。攻击者若了解系统模型,且只能在特定状态集 $\tilde{S}$ 伪造成本信号,可通过检查矩阵 $H$ 的值域空间是否与 $\mathbb{R}^{|A|(n - |\tilde{S}|)}$ 的负正交象限相交,来判断是否能误导智能体学习到期望策略 $\mu^{\dagger}$。
检查 $H$ 条件是否成立可借助 Gordan 定理:要么 $Hx < 0$ 有解 $x$,要么 $H^Ty = 0$ 有非零解 $y$ 且 $y \geq 0$。攻击者可使用线性/凸规划软件求解如下问题:
$$
\min_{y \in \mathbb{R}^{|A|(n - |\tilde{S}|)}} ||H^Ty|| \quad \text{s.t.} \quad ||y|| = 1, y \geq 0
$$
若该问题的最小值为正,则存在 $x$ 使 $Hx < 0$。攻击者可选择 $\tilde{g}_{fal}^{\mu^{\dagger}} = \lambda x$ 并选取足够大的 $\lambda$,使相关条件成立,从而让智能体学习到策略 $\mu^{\dagger}$。
案例研究:随机游走中的 TD 学习
考虑随机游走的 TD 学习,将马尔可夫决策过程(MDP)视为马尔可夫成本过程(MCP),有 $n = 20$ 个状态。状态转移规则如下:
- 对于 $i = i_k$,$k = 2, 3, \ldots, n - 1$,过程向左转移到 $i_{k - 1}$ 或向右
超级会员免费看
订阅专栏 解锁全文
4500

被折叠的 条评论
为什么被折叠?



