《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记

这是cvpr20的一篇与对抗攻击相关的文章。

涉及的问题

深度学习虽然在cv领域硕果累累,但是它的脆弱性(vulnerable)是众所周知的。通过人眼无法察觉的微小改动,就可以使得神经网络模型产生截然不同的预测。这篇文章涉及的问题是:作者首次将对抗攻击引入到视频目标追踪(Video Object Tracking,VOT)中,研究如何攻击VOT领域中的SOTA模型,如SiamRPN等。

与传统的对图像分类或目标检测模型的攻击不同,对VOT模型的攻击涉及以下几个难点:(1)VOT任务大多是online的,因此只知道第一帧的目标框位置,而不知道目标物体的类别,所以无法通过离线的方式去得到class-level的对抗扰动;(2)tracking的失败与classification的失败是不同的:在classification中,只需要增大第二大的概率值,使之超过原模型的最大概率就可以认为是成功的攻击;但在tracking任务中,仅仅最大化第二大的confidence并不能导致tracking的失败,因为像SiamRPN之类的网络需要很多anchor做回归得到精确的位置;(3)Guassian Window的影响:我们期望让离ground truth最远的box有较高的confidence,但是Guassian Window会在帧之间限制这种box的confidence,这显然是冲突的。

解决的方法

概括来说,解决方法主要分为三个步骤:(1)由于类别的不确定性,需要生成对任何可能目标的扰动,因此作者仅仅在每个视频的第一帧添加perturbation,这种方法称作one-shot attack;(2)攻击时的损失函数由两部分构成,分别是batch confidence loss和feature loss:前者的目的是降低一些high-quality box的置信度,并提高一些low-quality box的置信度;后者是增强攻击的力度,具体见下文;(3)分别对两种loss增加了attention机制,有适当涨点。

在这里插入图片描述
上式表示的是batch confidence loss,我们希望最小化之。对于排名1-p的high-quality的box,希望通过生成的攻击样本 z ∗ z^{*} z来降低其confidence,对于排名处于最后的r-q到q的box,希望通过攻击样本 z ∗ z^{*}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值