前言
Goodfellow、Elsayed团队又将对抗样本往前推进了一大步,产生了可以同时迷惑机器和人类的对抗样本,着实让人惊讶。主要是通过对机器识别模型产生迁移对抗样本,从而迷惑人类视觉,让我们看下具体是怎么做到的吧。
breakout、question、future work
该论文做出了对抗样本的重要突破,提出了一系列问题,并综述了未来的工作。
Breakout
Elsayed等通过模型的迁移对抗样本,生成了足以迷惑人类的对抗样本。来张猫狗图,paper的说法是,这张图实际是猫,但看起来像狗。
question
1. 对抗样本是如何工作的?CNN是如何工作的?大脑是如何工作的?
2. 从CNN到人类的迁移对抗攻击有效,是不是因为CNN在语义上的表达与大脑相近。
3. 迁移有效,是因为CNN与大脑在表征层具有更本质的相似性。
future work
1. 视觉物体识别:困难在于定义客观地正确答案。
2. 研究人类在客观正确答案任务中的表现。
3. 研究对抗样本使得迁移到人类有效时的诱发特性。
4. 这些特性与真实世界特性的关联性。
5. 对大脑和神经网络有更好的理解。
人在定义事物时的客观性具有非度量性,是难以精确界定的,比如对paper中的猫狗图,有人就会更倾向认为是长得像猫的狗,而不是长得像狗的猫。
Bloack Box Adversarial Example Construction
对抗样本—攻击者精心设计的诱使机器学习模型误判的输入数据,基本介绍见之前的博文,现在介绍下其中涉及的黑箱对抗样本生成技术。当攻击者无法获得攻击目标模型的信息时,如何通过迁移对抗样本来实现对抗攻击。
对抗样本的两点注意事项
1. 对抗样本是设计用来诱发误判的,而不是有别于人类判别。
2. 对抗样本没有限定微小的改动,也可以大的改动。
人类更容易受到认知偏差和光学错觉的误导,这既不是图像的微小扰动,也不是单纯的loss函数优化就可以模拟的。
迁移对抗样本背后所代表的含义?
transfer effect: 能够迷惑一个模型的对抗样本通常也能够迷惑另外一种结构的模型,即便那个模型用不同的训练集训练,甚至用不同的训练方法(CNN的对抗样本也能迷惑决策树)。
对抗样本的迁移效应使得黑箱对抗攻击成为可能。
机器识别和人类识别之间的迁移,为机器学习到人类识别的内在属性提供了可能。
迁移背后表明,总有本质的特征或者特性,被以共同或者相近的方式表达了。
key clues for this paper:多模型集成来生成对抗样本对人类具有实际可观察含义。
How to Trans from Machine to Human
机器模型与人类识别系统还是具有相当的大的差距的。比如在视觉图像的焦点处理上,机器将整个图像都公平对待,而人眼则是集中到焦点处,其余地方则随着焦点的距离而呈线性降低模糊化。另外,机器将整个图像作为静态的一次读入,而大脑则是很活跃的扫描整个图像。
retinal layer
这一层,是将输入数据送入一个类似视网膜处理的模块,实现类人眼的焦点处理,对图像的每个空间位置,计算视网膜的离心比例(在弧度上)。重点在于构造一个低通滤波器。
θ(c)=tan−1(||c||2dviewer)
θ
(
c
)
=
t
a
n
−
1
(
|
|
c
|
|
2
d
v
i
e
w
e
r
)
dviewer
d
v
i
e
w
e
r
表示观察者与屏幕间的距离(米),
dhw
d
h
w
是图像的高和宽(米)。
将其转换为弧度为单位的目标分辨率,
rrad(c)=min(αθ(c),β)
r
r
a
d
(
c
)
=
m
i
n
(
α
θ
(
c
)
,
β
)
再将其转为为屏幕平面上的空间分辨率上,
rm(c)=rrad(c)(1+tan2(θ(c)))
r
m
(
c
)
=
r
r
a
d
(
c
)
(
1
+
t
a
n
2
(
θ
(
c
)
)
)
rpixel(c)=rm(c)∗[pixels−per−meter]
r
p
i
x
e
l
(
c
)
=
r
m
(
c
)
∗
[
p
i
x
e
l
s
−
p
e
r
−
m
e
t
e
r
]
两个点间的空间分辨率的区分转换为了相应的低通截断频率函数,以像素点为中心向外呈圆形扩散。
f(c)=πrpixel
f
(
c
)
=
π
r
p
i
x
e
l
Experiment Setup
作者精心挑选了几组实验数据pet group(dog and cat),Hazard group(spider and snake),Vegetables group(broccoli and cabbage),每个group都有多个pair对的数据(比如pair(A,B),A猫B狗),每个group作为一个coarse class。
生成对抗样本的模型,涉及Inception V3/V4, Inception ResNet V2, ResNet V2 50, ResNet V2 101, ResNet V2 152.
对抗样本的生成条件:模型们误判A为B,误判B为A(双向误判);并且对抗样本与真实样本间的无穷阶范数小于等于
ϵ
ϵ
。
其中 F(ytarget|X)=σ(log∑i∈StargetF^(i|X)∑i∈SotherF^(i|X)) F ( y t a r g e t | X ) = σ ( log ∑ i ∈ S t a r g e t F ^ ( i | X ) ∑ i ∈ S o t h e r F ^ ( i | X ) ) 表示样本被判为手动挑选的coarse-class的概率, F^(i|X) F ^ ( i | X ) 是未规范化的分类到i下的概率值。 Starget S t a r g e t 是在所挑选的coarse-class下的物体分类集合, Sother S o t h e r 是在之外的物体分类集合。 ytarget y t a r g e t 是我们的目标coarse-class,计算模型将样本 X X 分到某个coarse-class类下的概率。
每个对中的图像,加以扰动,使得其被误判为对应的coarse-class中的对立图像类型。扰动生成对抗样本的方式如下 paper:
X^nadv=Xn−1adv−α∗sign(Δxn(J(Xn|ytarget))) X ^ a d v n = X a d v n − 1 − α ∗ s i g n ( Δ x n ( J ( X n | y t a r g e t ) ) )
Xnadv=clip(X^nadv[X−ϵ,X+ϵ]) X a d v n = c l i p ( X ^ a d v n [ X − ϵ , X + ϵ ] )
为适应多模型集成对抗,采用如下方法评估代价函数 paper:
J(X|ytarget)=−log[Pens(ytarget|X)] J ( X | y t a r g e t ) = − log [ P e n s ( y t a r g e t | X ) ]
Pens(y|X)∝exp(Ek[logFk(y|X)]) P e n s ( y | X ) ∝ e x p ( E k [ log F k ( y | X ) ] )
人类识别实验部分如下:
Reference
- 《Adversarial Examples that Fool both Human and Computer Vision》
- 《Adversarial Examples in the Physical World》
- 《Delving into Transferable Adversarial Examples and Black-box Attacks》