Paper review: Using Honeypots to Catch Adversarial Attacks on Neural Network

Using Honeypots to Catch Adversarial Attacks on Neural Network

Summary

作者引入 trapdoor 的概念来防御对抗攻击,trapdoor 相当于注入原始数据集的噪声扰动,且从正态分布中随机采样得到,记为 Δ \Delta Δ。一个精心设计的 Δ \Delta Δ 对应于一个指定的保护标记 y t y_t yt。在训练过程中,同时最小化正常输入的分类损失和具有 Δ \Delta Δ 扰动的输入的分类与其保护标记 y t y_t yt 的损失。这样就为那些企图被误分类为 y t y_t yt 的对抗样本提供了一个 honeypot (局部最小点),对抗样本的生成过程最终大概率会被引诱至这一点。

文中也证明了,在对抗样本与 trapdoor 的相似度(cosine similarity )较高的情况下,排除这类对抗样本,攻击成功率大概率下降。因此可通过 cosine similarity 检测出的相似度,来排除对抗样本。

接下来,分别在 6 个静态对抗攻击方法和 4 个数据集中测试该方法的对抗样本检测成功率,并与 4 个现有防御系统做对照,取得明显的优势。最后,测试 trapdoor 模型在一些适应性攻击及更强大的白盒攻击的对抗样本检测成功率,模型表现只有轻微或小幅度下降。

Strength

  1. 测试了多种攻击方法以及多个数据集,并且与现有防御系统进行比照实验,充分表现了作者提出的 trapdoor 模型不仅兼顾多种攻击,而且优于其他防御模型。
  2. 测试了更高级的攻击(countermeasures),并按照攻击者对 trapdoor 模型的认识程度依次测试。只有攻击者充分了解 trapdoor 模型的参数,其对抗样本检测正确率才有小幅度下降。

Weakness

  1. 数学证明晦涩难懂。
  2. 论文最后的 countermeasures 测试中,没有针对生成对抗样本的概率分布着手的 countermeasures 。

Comment

对于 weakness 1,不能理解论文中的偏导推导 ∂   l n F θ ( x ) ∂ x = ∂   l n ( g ( x ) ∘ L ) ∂ x = c ∂   l n g ( x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值