[论文笔记]K-CRC算法
Kernel Cross-View Collaborative Representation based Classification for Person Re-Identification(2016 ArXiv)
1. SRC & CRC
这个问题源自ICCV2011上一篇人脸识别的论文Sparse Representation or Collaborative Representation: Which Helps Face Recognition?
SRC(Sparse representation based classification)首先用所有训练样本的线性组合表示一个测试样本,然后估计哪一类可以最小化representation error,就确定了测试样本属于哪一类。很多相关工作都强调了sparse representation在人脸识别的作用,但是文章研究发现,是Collaboration representation而不是l1-norm Sparsity使得SRC在人脸识别方面更有效。
文章认为SRC算法中,有两点很关键:
- 第一,测试样本的编码矢量必须是稀疏的;
- 第二,测试样本由整个样本数据库协作编码表达,而不是由每个类别的子集表达。
假如测试样本属于样本数据库中的某一类,那么应该可以有这个类别的样本集稀疏表示,也就是用最少的样本来表达,所以测试样本的编码矢量必须是稀疏的。但是这是建立在每个类别的样本集都是完备的,这个基础上的,实际上这样的前提很难做到。用某一类别的样本集来表达测试样本的误差会很大,即便是测试样本恰好属于这个类别。所以SRC采用整个样本数据库来协作表达测试样本,当采用CRC(Collabarative representation based classification)判断测试样本是否属于某一类别时,既要判断测试样本与这一类别的差别是否小,还要判断与其他类别的差别是否大,这样的“double check”使得识别更加有效和鲁棒。
简明区分可见如下的目标方程:
当p=1时,a为sparse representation;当p=2时,a为collaborative representation。
2. Multi-task learning framework
求collaborative representation因子 ax 和 ay ,y表示probe样本,x表示gallery样本,分别用两个独立的字典。
除了使用CRC,该算法的一大创新点是使用了multi-task learning framework,把不同摄像头视角下的collaborative representation的运算看成是一个不同的任务,同时计算ax和ay。
3. Comparison with DVDL-algorithm
与 ICCV2015上字典学习的论文Person Re-Identification with Discriminatively Trained Viewpoint Invariant Dictionaries 比较可以总结如下:
(a)X-CRC方法对不同摄像机视角使用不同的字典而使用DVDL 算法中使用统一的字典,且前者在式(3)中对字典Dx和Dy做了非线性的映射;
(b)编码向量的距离X-CRC方法中使用cosine距离而DVDL 算法使用欧式距离;
(c)X-CRC使用l2-norm(collaborative representation),DVDL使用l1-norm(sparse representation);
(d)X-CRC用于single-shot场景,DVDL用于multi-shot。