发表位置: Neurocomputing CCF C刊
发表时间:2020
摘要
提出一种PGD方法来表示Faster R-CNN的损失构造对抗样本
背景
由于深神经网络在语音和视觉识别任务,达到最先进的性能,研究人员开始使用神经网络应用于解决重要的现实问题。如,图像分类、对象发现、目标检测、人脸识别、自然语言处理、生化分析和恶意软件检测。然而,随着神经网络的日益广泛使用,敌手攻击神经网络的动机也在增加。
然而,先前的研究表明,卷积神经网络对于对抗样本是脆弱的。这些对抗样本是有意干扰的输入,会被cnn错误分类,但不会误导人类。因此,这一问题暴露了cnn的弱点,引起了众多研究者的关注。cnn不仅容易受到直接输入对抗样本的攻击,而且也容易受到摄像机捕捉到的对抗样本的攻击。例如,在现实世界中,一个戴着精心制作的印刷镜框的人可能会被识别为另一个人。这一方法成功攻击了人脸识别系统和人脸检测系统,使得人们开始担心基于CNN人脸识别系统的威胁。同样,精心设计的扰动也会误导交通标志识别系统,使其将停止标志错误识别为限速标志,当这些不安全的交通标志识别系统应用于自动驾驶时,这将会非常危险。
虽然很多研究都集中在分类上,但对目标检测的研究较少,而目标检测则是一个更为复杂的课题。cnn的实际应用场景往往包含多种目标,因此对目标检测的对抗性攻击进行研究将更加有意义和实用。与分类相比,目标检测在分类前往往需要生成区域建议。对每个对象提案进行分类的过程与一般分类相似。通过这种方式,对目标检测的对抗性攻击可以转化为在一组数据集上生成对抗样本的问题。那么如何将攻击方法从分类到目标检测等方面加以应用呢?
方案
1. 目标函数
max
L
(
θ
,
x
+
r
,
y
)
∣
∣
r
∣
∣
∞
≤
ε
\begin{array}{l} \max L(\theta ,x + r,y) \\ ||r|{|_\infty } \le \varepsilon \\ \end{array}
maxL(θ,x+r,y)∣∣r∣∣∞≤ε
其中,
θ
\theta
θ表示模型参数,
L
(
θ
,
x
+
r
,
y
)
L(\theta ,x + r,y)
L(θ,x+r,y)表示模型的损失函数,
r
r
r表示扰动,
x
x
x表示数据,
y
y
y表示模型的标签。
2. 对抗样本构造方法
x t + 1 = C l i p x , ε ( x t + α × s i g n ( ∇ x L ( θ , x + r , y ) ) ) {x^{t + 1}} = Cli{p_{x,\varepsilon }}({x^t} + \alpha \times {\mathop{\rm s}\nolimits} ign({\nabla _x}L(\theta ,x + r,y))) xt+1=Clipx,ε(xt+α×sign(∇xL(θ,x+r,y)))
其中,KaTeX parse error: Expected group after '^' at position 27: …arepsilon }}({x^̲'})表示函数映射,将KaTeX parse error: Expected group after '^' at position 3: {x^̲'}映射到 ε − L ∞ \varepsilon - {L_\infty } ε−L∞的领域上, ∇ x L ( θ , x + r , y ) {\nabla _x}L(\theta ,x + r,y) ∇xL(θ,x+r,y) 表示损失函数 L L L的梯度, s i g n ( ) sign() sign()表示sign function。
3. 损失函数的定义
L
=
L
c
l
s
F
a
s
t
R
−
C
N
N
+
L
r
e
g
F
a
s
t
R
−
C
N
N
+
L
c
l
s
R
P
N
+
L
r
e
g
R
P
N
L = L_{cls}^{FastR - CNN} + L_{reg}^{FastR - CNN} + L_{cls}^{RPN}+L_{reg}^{RPN}
L=LclsFastR−CNN+LregFastR−CNN+LclsRPN+LregRPN
L
c
l
s
F
a
s
t
R
−
C
N
N
L_{cls}^{FastR - CNN}
LclsFastR−CNN表示
F
a
s
t
R
−
C
N
FastR - CN
FastR−CNclassification loss,
L
r
e
g
F
a
s
t
R
−
C
N
N
L_{reg}^{FastR - CNN}
LregFastR−CNN表示Fast R-CNN bounding- box regression loss,
L
c
l
s
R
P
N
L_{cls}^{RPN}
LclsRPN表示RPN classification loss,
L
r
e
g
R
P
N
L_{reg}^{RPN}
LregRPN表示RPN bounding- box regression loss
补充知识:
迁移性:
可转移性是指一个特定模型生成的对抗性例子可以转移到其他不同的模型中,从而成功地攻击这些模型
对抗攻击和对抗样本之间的联系:
对抗攻击可以视为在一组数据集上生成对抗样本的问题
防御方法:
对抗训练,防御正路、特征压缩
所有的防御方法都有可能被新的攻击方法打败
白盒攻击和黑盒攻击的差别:
白盒攻击是基于一个模型生成对抗样本,然后使用该模型对生成的对抗样本进行检测; 黑盒攻击是基于一个模型生成对抗样本,然后利用其他的模型对生成的对抗样本进行检测