23、神经网络对抗后门攻击的验证

最新推荐文章于 2025-12-04 23:44:51 发布

火锅TCP

最新推荐文章于 2025-12-04 23:44:51 发布

阅读量49

点赞数

CC 4.0 BY-SA版权

分类专栏： CAV 2022精华解读文章标签：神经网络后门攻击对抗攻击

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/152768102

CAV 2022精华解读专栏收录该内容

66 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

神经网络对抗后门攻击的验证

1. 验证后门攻击的成功率

为了验证是否存在成功率为 0.9 的后门攻击，我们选取了 MNIST 测试集中的 10000 张图像来评估触发器的成功率。设置参数如下：$K = 5$，$\alpha = \beta = \delta = 0.01$。对于目标标签 0，经过 95 轮测试后，我们有足够的证据接受假设 $H_0$，这意味着有证据表明网络针对目标标签 0 不存在成功率至少为 0.9 的后门攻击。对于其他目标标签也有类似结果，但标签 2、3、5 和 8 需要更多轮测试，具体如下：
| 目标标签 | 测试轮数 |
| ---- | ---- |
| 0 | 95 |
| 2 | 188 |
| 3 | 100 |
| 5 | 117 |
| 8 | 98 |

2. 针对一组图像验证后门是否存在

接下来介绍算法 verifyX 的细节。该算法的输入包括神经网络 $N$、一组形状为 $(c, h, w)$ 的图像 $X$、触发器形状 $(cs, hs, ws)$ 和目标标签 $ts$。其目标是检查是否存在一个触发器能成功攻击 $X$ 中的每一张图像。算法 verifyX 可能有三种结果：
- SAFE ：不存在能使后门攻击在 $X$ 中所有图像上都成功的触发器。
- UNSAFE ：生成了一个能成功攻击 $X$ 中所有图像的触发器。
- UNKNOWN ：未能得出上述任何一种结果。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。