神经网络对抗后门攻击的验证
1. 验证后门攻击的成功率
为了验证是否存在成功率为 0.9 的后门攻击,我们选取了 MNIST 测试集中的 10000 张图像来评估触发器的成功率。设置参数如下:$K = 5$,$\alpha = \beta = \delta = 0.01$。对于目标标签 0,经过 95 轮测试后,我们有足够的证据接受假设 $H_0$,这意味着有证据表明网络针对目标标签 0 不存在成功率至少为 0.9 的后门攻击。对于其他目标标签也有类似结果,但标签 2、3、5 和 8 需要更多轮测试,具体如下:
| 目标标签 | 测试轮数 |
| ---- | ---- |
| 0 | 95 |
| 2 | 188 |
| 3 | 100 |
| 5 | 117 |
| 8 | 98 |
2. 针对一组图像验证后门是否存在
接下来介绍算法 verifyX 的细节。该算法的输入包括神经网络 $N$、一组形状为 $(c, h, w)$ 的图像 $X$、触发器形状 $(cs, hs, ws)$ 和目标标签 $ts$。其目标是检查是否存在一个触发器能成功攻击 $X$ 中的每一张图像。算法 verifyX 可能有三种结果:
- SAFE :不存在能使后门攻击在 $X$ 中所有图像上都成功的触发器。
- UNSAFE :生成了一个能成功攻击 $X$ 中所有图像的触发器。
- UNKNOWN :未能得出上述任何一种结果。
超级会员免费看
订阅专栏 解锁全文
44

被折叠的 条评论
为什么被折叠?



