Saliency Detection by Multi-Task Sparsity Puisuit

最新推荐文章于 2021-03-19 04:51:26 发布

开飞机的小毛驴儿

最新推荐文章于 2021-03-19 04:51:26 发布

阅读量956

点赞数

CC 4.0 BY-SA版权

分类专栏：论文总结

本文链接：https://blog.youkuaiyun.com/jzwong/article/details/74502720

论文总结专栏收录该内容

19 篇文章

订阅专栏

本文介绍了一种在无监督条件下进行自然图像显著性检测的方法——多任务稀疏追踪(MTSP)。该方法通过联合优化多特征，解决了传统方法在特征融合时未能充分利用跨特征信息的问题。实验结果显示，MTSP在显著性检测方面优于现有方法。

前言

这是很久之前看过的一篇文章，今晚突然想起来可能对我即将要做的工作有所启发，故重新阅读，写点收获体会。下面是我对这篇文章的一个简单翻译和理解，可能存在不准确之处，仅仅是我个人的看法。

摘要

这篇文章要解决的问题是在无监督的情况下做自然图像中的显著性检测。为了协同多特征用于显著性检测，本文提出了一个多任务稀疏追踪的方法。给定一幅多特征描述的图像，通过寻求连续的稀疏元素来推断其显著性图。推断过程被形式化为核范数和l21范数最小化的问题，该问题为凸且可以通过增广拉格朗日乘子法求解。先前的方法使用多特征往往是结合单特征得到的显著性图，而本文所提出的方法是联合优化多特征得到一个更为准确值得信赖的显著性结果。除了非监督的设置，本文所提出的方法也可以推广到监督情况下整合从顶向下的先验知识。大量实验证实了该文所提方法较其它先进方法的优越性。

简介

事实上一种广为接受的观点是，集成多种视觉特征对显著性检测大有裨益。不幸的是，在该方向上现存的方法多基于一种朴素组合的框架。典型的就是，在对每种特征单独计算解得显著性图之后，这些显著性图被正规化然后以一种线性或非线性的方式组合在一起产生最终的显著性图。在这个过程中，跨特征信息没能很好地利用起来，该类方法也很难产生值得信赖的结果。

为了有效地利用多重特征，在本文中作者针对显著性检测提出了一种多任务稀疏追踪(Multi-Task Sparsity Pursuit, MTSP)的模型，下图展示了所提出方法的框架，无论在动机上还是在方法上都较先前的方法有较大的不同。作者将显著性检测当作稀疏追踪问题来对待，通过集成多种特征实现来实现最终的显著性检测。在该框架下，由于很好地考虑到了跨特征信息，如此一个联合推断的框架较之前利用单特征单独产生显著性图的方法相比能够产生更为准确可靠的结果。推断过程被形式化为约束核范数和l21范数最小化问题，该问题为凸问题且能通过增广拉格朗日乘子法有效地求解。除了有能力对多特征联合建模外，所提出的MTSP的另一个优势是它具有很好的泛化能力，能够自然地集成从顶向下的先验知识来产生更为准确的结果。总而言之，本文的主要贡献主要有以下三个方面：

对显著性检测问题提出了稀疏追踪的框架。与现有的模型相比，所提框架能无缝整合多种特征到一个统一的推断过程中，该过程被形式化为一个凸优化问题。在做一些微调之后，所提模型亦能处理监督环境下从顶向下的先验；
基于所提的框架，作者建立了有效的显著性检测算法。大量实验证明所提算法表现极大地优于现有算法，且算法计算较为有效；
对联合稀疏追踪作者所提出的MTSP是一种普适的多任务方法。对其它相关工作或许也能有所帮助。

用于显著性检测的多任务稀疏追踪

问题形式化

令d*N维的矩阵X=[x1,...,xN]为一特征矩阵，每一列一个特征向量xi对应一个图像块Pi，问题就变为去寻找一个函数S(Pi)映射到[0,1]区间，函数S(Pi)被称为显著性图，该值越大表明Pi处越显著。该处叙述中一个弱点是仅考虑了一种类型的特征，为了更好的表现，我们考虑下面多重特征的情形。
令X1，X2，...,XK表示K种特征的K个特征矩阵，不同矩阵中的同一列对应相同的图像块。每一个矩阵Xi的大小为di*N，其中di表示特征的维度，N表示图像块的个数。然后该问题就变成通过集成特征矩阵X1,...,XK来寻找一个函数S(Pi)的过程。

多任务稀疏追踪

为了更好的理解，我们先探索形式化1问你，然后再相应地建立多特征(形式化2)情形下的算法。

单特征情形(形式化1)

对问题1情形本质上就是来找一个标准来度量和检测显著性。再人类视觉系统中，通常仅有辨别性的感受信息被挑选出来做进一步的处理。从这个角度看，显著性目标应该不同于背景（非显著）图像块。而且，背景块之间往往存在较强的关联性，也就是说，背景块通常是可以自我表示的。这表明，特征矩阵X或许能够分解为显著部分和非显著部分，即

其中XZ0代表可以自我表示的非显著部分，Z0为重构系数，E0对应显著性目标。

在没有任何限制的情况下，上面的问题有无穷多个解。为了寻求一个对显著性检测有益的解，我们需要一些标准来刻画矩阵Z0和E0。为此，我们有两个基本原则。一方面，正如在计算机视觉中大多数方法所采用的，我们假设仅有小部分的图像块是显著的，也就是说矩阵E0应该是一个稀疏矩阵。另一方面，背景图像块之间的强相关性表明矩阵Z0或许是低秩的。总结来说，对一个矩阵X=[x1,...,xN]每个xi表示第i个图像块的特征，通过求解下面的低秩表示模型来推断显著性图像块是合适的：

注意到对E0的约束是l21范数，其定义为矩阵列的2范数之和，即

这里为什么采用l21范数可以这样理解，最小化l21范数是希望矩阵列的2范数尽可能小，换句话说，是希望列稀疏，而我们前面提到了，每一列对应一个图像块且显著性图像块只占小部分，这也就将显著性图像块的少量和矩阵上的稀疏给对应起来了。令E0*为以上问题E0的最优解。为了获得第i个图像块Pi的显著性值，我们只需要对稀疏矩阵做如下简单处理即可：

S(Pi)越大表明图像块Pi越可能是显著的。在这种方式下，LRR模型就完成了显著性检测的任务。下图展示了该过程是如何发现显著性区域的。

多特征情形(形式化2)

上面的LRR模型仅能处理单一视觉特征，无法直接用于多特征的情形。为了将多特征结合在一起，正如许多现有方法所采用的，一种直观的方法是直接组合单一特征得到的显著性图。然而，在单一特征显著性图的推断过程中并没有很好地利用起跨特征信息，因此很难产生准确可靠的结果。在这里，我们提出多任务稀疏追踪MTSP的解决方案，可以看作是LRR模型的多任务推广。MTSP求解下述优化问题：