23、神经网络对抗后门攻击的验证

神经网络对抗后门攻击的验证

1. 验证后门攻击的成功率

为了验证是否存在成功率为 0.9 的后门攻击,我们选取了 MNIST 测试集中的 10000 张图像来评估触发器的成功率。设置参数如下:$K = 5$,$\alpha = \beta = \delta = 0.01$。对于目标标签 0,经过 95 轮测试后,我们有足够的证据接受假设 $H_0$,这意味着有证据表明网络针对目标标签 0 不存在成功率至少为 0.9 的后门攻击。对于其他目标标签也有类似结果,但标签 2、3、5 和 8 需要更多轮测试,具体如下:
| 目标标签 | 测试轮数 |
| ---- | ---- |
| 0 | 95 |
| 2 | 188 |
| 3 | 100 |
| 5 | 117 |
| 8 | 98 |

2. 针对一组图像验证后门是否存在

接下来介绍算法 verifyX 的细节。该算法的输入包括神经网络 $N$、一组形状为 $(c, h, w)$ 的图像 $X$、触发器形状 $(cs, hs, ws)$ 和目标标签 $ts$。其目标是检查是否存在一个触发器能成功攻击 $X$ 中的每一张图像。算法 verifyX 可能有三种结果:
- SAFE :不存在能使后门攻击在 $X$ 中所有图像上都成功的触发器。
- UNSAFE :生成了一个能成功攻击 $X$ 中所有图像的触发器。
- UNKNOWN :未能得出上述任何一种结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值