跨媒体检索（关联）之基于CCA的方法大总结

最新推荐文章于 2024-09-17 14:05:12 发布

原创最新推荐文章于 2024-09-17 14:05:12 发布 · 3.6k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#跨媒体 #检索 #CCA

note 同时被 2 个专栏收录

32 篇文章

订阅专栏

Cross-Media

9 篇文章

订阅专栏

本文综述了几种跨媒体检索技术，包括基于CCA的方法及其变体，如KCCA、DCCA、Cluster-CCA和Multi-Label CCA。探讨了线性及非线性子空间学习、语义匹配和相关匹配等技术，以及它们在图像和文本检索中的应用。

跨媒体检索相关英文论文下载地址

背景

跨媒体既表现为包括文本、图像、音频、视频等媒体类型混合并存，又表现为各种媒体类型形成复杂的关联关系和组织结构。如何在不同媒体之间建立一种联系使得能够统一的表达跨媒体信息是目前跨媒体研究的一个重要挑战。
常见的方法是建立一个共享子空间，不同媒体类型的数据对象的相似性可以映射到这个子空间中使用常见的距离度量（如欧几里得和余弦距离）算法直接计算。

本文依据几篇经典的论文，介绍了几种基于典型相关分析（CCA）的方法。

1 2010-A New Approach to Cross-Modal Multimedia Retrieval[1]

1.1 主要思想

本文研究多媒体文本和图像联合建模问题。

表示：
文本使用LDA（latent Dirichlet allocation）模型表示。
图像使用SIFT特征表示。
学习模型：CM/SM/SCM
数据集：Wikipedia dataset.
创新之处：
提出三种子空间学习模型。
增加语义层的推断。例如，将层次主题模型用于文本聚类或层次语义表示用于图像检索。通过将图像和文档利用逻辑回归算法建模为关于一组预定义文档类的后验概率向量，并与通过CCA学习后的子空间联合，提出一个语义相关匹配（SCM）跨媒体检索模型。

1.2 模型

在这里插入图片描述

图1.1 跨媒体检索模型系统

1.2.1 问题

在 $R^I和R^T$ 特征空间中表示图像和文本向量，每个文档和图像与各自的空间中的点建立一对一的映射。目标是给定一个查询文本（图像） $T_q ∈R^T（I_q ∈R^I）$ ，检索模型在图像空间 $R^I$ （文本空间 $R^T$ ）中返回最相近的匹配。

一般情况下，在 $R^I$ 和 $R^T$ 建立一个可逆映射，如：
$M: R^T→R^I$
给定一个 $T_q \ in\ R^T$ ，返回一个最近匹配 $M(T_q ) \ in\ R^I$ ，反之同。

但由于文本和图像的表示方法不同，因此上述表示不能直接建立。一种方法是，建立两个中间空间用来映射这两种表示，如：
$M_I: R^I→U^I$ $M_T: R^T→U^T$
$U^I,U^T$ 空间是同构的，因此可以建立一个映射，如：
$M: U^T→U^I.$
给定一个 $T_q \ in\ R^T$ 。返回最近匹配 $M_I^{-1}∘M∘M_T (T_q ) \ in\ R^I$ ,反之，给定 $I_q \ in\ R^I$ ,返回 $M_T^{-1}∘M^{-1}∘M_I (I_q ) \ in\ R^T.$
所以在这种情况下，目标是学习 $U^I,U^T$ 。

论文提出3种方法，分别是 $C o r r e l a t i o n m a t c h i n g (C M)$ ， $S e m a n t i c m a t c h i n g (S M)$ ， $S e m a n t i c c o r r e l a t i o n m a t c h i n g (S C M)$ .

1.2.2 CM

第一种方法，建立两个线性投影矩阵：
$P_T: R^T→U^T$ $P_I: R^I→U^I$
分别将 $R^I,R^T$ 映射到相关的d维子空间 $U^I,U^T$ ，其维持了表示的抽象层级。

这里使用了典型相关分析（Canonical correlation analysis ,CCA）方法学习子空间 $U^I⊂R^I$ , $U^T⊂R^T$ 。CCA是一种类似于PCA的数据分析和降维方法，和PCA不同的是CCA可以对两个空间进行降维，并提供相同的异构表示。

定义 $w_i∈R^I,w_t∈R^T$ ,目标是最大化文本和图像变量的相关性，如，
$\max_{w_i\neq0,w_t\neq0} \frac{w_i^T\sum_{IT}w_t} {\sqrt{w_i^T\sum_{II}w_i}\sqrt{w_t^T\sum_{TT}w_t}} \tag{1-1}$
$\sum_{II}$ 和 $\sum_{TT}$ 分别表示图像 ${I_1,...,I_(|D|)}$ 和文本${T_1,…,T_(|D|)} $经验协相关矩阵\sum_{IT}$ $=$ $\sum_{TI}^T$ 是其交叉-协相关矩阵。
公式（1-1）可以转化为一个一般的求特征值的问题（generalized eigenvalue problem，GEV）。首先利用LDA优化问题，固定分母，求分子最大化。如：
$\ imize \ w_i^T\sum_{IT}w_t \\ s.t. \ w_i^T\sum_{II}w_i=1,w_t^T\sum_{TT}w_t=1 \tag{1-2}$
求解此问题可以用拉格朗日乘数法，令：
$w_i^T\sum_{IT}w_t - \frac {\lambda}{2}({w_i^T\sum_{II}w_i-1})-\frac {\theta}{2}(w_t^T\sum_{TT}w_t-1) , \tag{1-3}$
对（1-3）求偏导，得到 $\frac{\partial L} {\partial w_i}$ 和 $\frac{\partial L} {\partial w_t}$ ，令其等于0，得：
$\begin{cases} \sum_{IT}w_t-\lambda \sum_{II}w_i=0,\\\sum_{TI}w_i-\theta \sum_{TT}w_t=0. \end{cases} \tag{1-4}$
公式（1-4）可以转化为一个求特征值问题，简化得：
$\begin{pmatrix} 0 & \sum_{IT} \\\\ \sum_{TI} & 0 \\ \end{pmatrix} \begin{pmatrix} w_i \\\\ w_t \\ \end{pmatrix} = \lambda \begin{pmatrix} \sum_{II} &0 \\\\ 0 & \sum_{TT}\end{pmatrix} \begin{pmatrix} w_i \\\\ w_t \\ \end{pmatrix}. \tag{1-5}$
最终求出 $λ$ 和 $w_i,w_t$ .
应用于跨媒体检索中，每个文本 $T∈ R^T$ 被映射到其投影 $p_{T}=P_T (T)$ 到 ${w_(t,k)}_{k=1}^d$ 上，图像与之类似。这样向量 $p_T$ 和 $p_I$ 分别是两个同构d维子空间 $U^T和U^I$ 的坐标，它们也被认为是属于通过 $U^T$ 和 $U^I$ 叠加而形成的单个空间 $U$ .
给定一个图像 $I_q$ ,且 $p_I=P(I_q)$ ,目标是求使得公式（1-6）最小的 $p_T=P_T (T)$ 的值 $T ∈ R^T）$ ，并返回最相似的匹配 $T$ ，式（1-6）如下：
$d(p_I,p_T) \tag{1-6}$
式（1-6）中 $d$ 是一种距离度量公式。
以上检索类型被定义为 $c o r r e l a t i o n m a t c h i n g$ .

1.2.3 SM

第二种方法，建立两个非线性转换：
$L_T: R^T→S^T$ $L_I: R^I→S^I$
将 $R^I,R^T$ 映射到一对语义空间 $S^T, S^I, s.t. S^T= S^I$ 。其增加了表示的语义抽象。

首先在数据库中定义语义概念词典 $V=\lbrace{ v_1,…,v_K }\rbrace$ ,其中 $v_K$ 表示一个类，比如“History” 或者 “Biology”。
$L_T$ 将一个文本 $\in R^T$ 映射到一个后验概率向量 $P_(V|T) (v_i│T),i∈\lbrace{1,…,K}\rbrace$ .这些向量构成一个语义空间 $S^T$ ，类似地，图像的语义空间为 $S^I$ 。

一种求后验概率分布的方法是多类逻辑回归算法。逻辑回归通过训练数据得到一个回归函数，从而计算一个类j的后验概率。回归函数公式如下：
$P_{V|X}(j|x;w)=\frac{1}{Z(x,w)}exp(w_j^Tx) \tag{1-7}$
其中 $Z(x,w)=∑_jexp(w_j^T x)$ 是归一化常数， $V$ 代表类别集合， $X$ 是输入的特征向量集合， $w_j$ 是类 $j$ 的参数向量。

由于 $S^T$ 和 $S^I$ 在相同的文档类中表示的后验概率向量空间，因此 $S^T$ 和 $S^I$ 是同构的，即认为 $S^T=S^I$ 。
给定一个图像 $I_q$ ,将其表示为概率向量 $π_I∈S^I$ ,通过最小化公式（1-8）得到 $π_T∈S^T$ ,公式如下：
$D(I,T)=d(\pi_I,\pi_T) \tag{1-8}$
这种检索类型被定义为 $s e m a n t i c m a t c h i n g$ 。

1.2.4 SCM

第三种方法，将1,2联合。
首先，使用CCA学习子空间 $U^I⊂R^I,U^T⊂R^T$ ，然后用逻辑回归算法在第一步基础上学习语义空间 $S^T$ 和 $S^I$ ，最后根据公式（1-8）检索，其中 $π_I=L_I (P_I (I)), π_T=L_T (P_T (T))$ .

这种检索类型被定义为 $s e m a n t i c c o r r e l a t i o n m a t c h i n g (S C M)$ .

1.3 实验

在Wikipedia dataset中检索结果如截图所示。
在这里插入图片描述

图1.2 不同距离度量下的检索结果

在这里插入图片描述

图1.2 最佳检索结果

1.4 讨论

CCA方法只能解决线性表示的数据，Hwang[3]等人提出KCCA，可以表示非线性数据。
KCCA相对CCA的优势是：

由于其复杂的函数空间，使用足够的训练数据可以用来表示更高的相关性。
可以生成特征以提高分类器性能。
不足：
训练速度慢。
测试时需要用到训练集，因此事先要存储训练集。
模型难以解释。
以上参考网站

2 2013-Deep Canonical Correlation Analysis[2]

2.1 主要思想

本文提出DCCA。实验表明，相比于CCA和KCCA，使用DCCA在相关性测量上具有更好的表示。

2.2 KCCA

原论文见[3]，关于KCCA的详细原理见博客。
普通的线性CCA只能探索两组随机变量之间的线性关系，而在实际情况中，变量间的关系往往是非线性的，于是非线性的CCA出现了，KCCA就是一种常用的非线性CCA算法。
KCCA是把核函数的思想引入CCA中，思想是把低维的数据映射到高维的特征空间（核函数空间），并通过核函数方便地在核函数空间进行关联分析。

2.3 DCCA

KCCA方法虽然解决了数据的非线性问题，但是由于其核函数选取的不可知性，训练开销较大，模型较为复杂，因此DCCA被提出以解决这些问题。
神经网络解决非线性问题的时候，是通过嵌入每个层次的非线性函数来解决的，Deep CCA就是先用深度神经网络分别求出两个视图的经过线性化的向量，然后求出两个投影向量的最大相关性，最后求出新的投影向量。用这个投影向量加入到机器学习算法进行分类，聚类回归。
关于DCCA的详细原理见博客和原论文[2]。

2.4 实验

DCCA也能解决非线性问题，论文中的实验室在2种数据集（MNIST handwritten digits和Articulatory speech data）上进行，在这两个数据集上做相关性测试。结果略。

3 2014-Cluster Canonical Correlation Analysis[4]

3.1主要思想

本文解决了CCA要求数据必须是配对的条件限制。何为配对限制？一句话解释即运用CCA算法处理两个模态的数据时，必须一个文本对应一个图像且同时处理。
本文提出的cluster-CCA、mean-CCA和cluster-KCCA可以解决上述问题。
关于以上提到的几种方法，图3.1可以帮助我们更好的理解。
在这里插入图片描述

图 3.1 获取两个集合的相关子空间的各种方法表示

CCA：使用集合之间的成对对应关系，不能分离两个集合
CCA for sets：计算两个子空间之间的主角，不能处理多个集合
cluster-CCA：使用集群内的所有成对对应
Mean-CCA：计算平均聚类向量之间的CCA

3.2 模型

有两组数据，每组数据分为C个不同但相互对应的类，令 $T_x=\lbrace{X_1,X_2,…,X_C}\rbrace$ 和 $T_y=\lbrace{Y_1,Y_2,…,Y_C}\rbrace$ ，其中 $X_c=\lbrace{x_1^C,…,x_{|X_c|}^C}\rbrace$ 和 $Y_c=\lbrace{y_1^C,…,y_{|Y_c |}^C}\rbrace$ 分别为集合中第C类的数据点。

通过选择方向 $w$ 和 $v$ 找到 $X$ 和 $y$ 的新坐标，使得 $T_x$ 和 $T_y$ 在 $w$ 和 $v$ 上的投影有最大的相关性，同时，类之间可以很好地分离。但是无法直接计算这些投影之间的相关性，因为他们在 $w$ 和 $v$ 上的投影没有任何直接的对应关系。因此提出了Mean-CCA与Cluster-CCA。
关于这两个模型的详细解释参考博客。

3.3 实验

3.3.1 数据集

本文使用了5种数据集：Pascal VOC 2007, TVGraz, Wiki Text-Image Dataset, Heterogeneous Face Biometrics (HFB) and Materials Dataset.

3.3.2 预处理和结果

举例，预处理wiki数据集，采用10-主题LDA模型提取文本特征，dense SIFT BOW提取图像特征。
跨媒体检索-PR曲线
在这里插入图片描述

图3.2 跨媒体检索PR曲线（数据集TVGraz）

跨媒体检索MAP分数
在这里插入图片描述

图3.3 跨媒体检索MAP分数

从图3.3看出，mean-CCA的性能高于CCA，KCCA的性能也不是太好，而cluster-CCA和cluster-KCCA的性能明显优于其他算法。

与现存的方法比较。其中 $SM（χ^2 ）$ 是 $S M$ 方法使用了 $S V M$ 作为分类器。
在这里插入图片描述

图3.4 与现存的方法比较

3.4 结论

将CCA和cluster-CCA核化后，可以将其应用范围扩展至非线性，将CCA改进至cluster- CCA后，可以改进CCA只能应用于所有数据必须成对对应的数据集的性能，即：拓宽了应用范围。当然，也是有一定弊端的，就是在大型数据集上使用时，计算量很大，因为它在计算协方差的时候对数据的数量呈平方的关系增长。

4 2014-On the Role of Correlation and Abstraction in Cross-Modal Multimedia Retrieval[5]

4.1 主要思想

本文实际上是对2010年论文[1]所提出方法的一个整合，使其更加完整。同样包括CM、SM、SCM算法。
本文给出一个CCA方法如何学习子空间的原理图，笔者认为这个图很形象的解释了CM方法。
在这里插入图片描述

图4.1 CM方法原理图
同样，本文也给出了SM方法原理图。（同样很形象）

在这里插入图片描述

图4.2 SM方法原理图

4.2 模型

大体上与[1]类似。相对于[1]，本文对跨媒体检索方法做了一些分类，包括以下几个方面。

4.2.1 相关匹配（CM）

关于CM详见1.2.2。本文总结了4个部分，分别是线性子空间学习、非线性子空间学习、图像和文本投影以及相关匹配（最后两个部分见1.2.2）。

线性子空间学习。包括CFA（如下图）和CCA算法（见1.2.2）。

在这里插入图片描述

图4.3 CFA算法描述

非线性子空间学习。主要指KCCA算法，详见2.2。

4.2.2 语义匹配（SM）

这一部分与1.2.3方法类似。不同之处是增加了另外两种分类器。
原1.2.3在求语义空间的映射矩阵时用到了逻辑回归算法。本文又增加了SVM算法和Boosting方法。其相关原理简单介绍如下。
SVM学习两个类之间最大边距的分离超平面，其优化函数如下:
$\min_{w,b,\xi}\frac{1}{2}w'w+C\sum_i\xi_i \\ s.t.\ y_i(w'x_i+b) \geq 1-\xi_i,\forall i \ \xi_i \geq0, \tag{1-9}$
$w$ 和 $b$ 是超平面参数， $y_i$ 是类标签， $x_i$ 是输入特征向量， $ξ_i$ 是松弛变量， $C > 0$ 是异常值（孤立点）的惩罚系数，
Boosting方法通过联合一系列弱学习器变为一个强规则学习器。详细描述自行百度or谷歌。

4.2.3 语义相关篇匹配（SCM）

见本文1.2.4。

4.3 实验

本文实验更加丰富，并加入了一些优化方法。
首先进行了使用不同距离度量方法的实验，包括Kullback-Leibler divergence（KL），l_1和l_2范数，normalized correlation (NC) 和 centered normalized correlation (NC_c)。实验结果表明NC_c性能最好，因此将使用NC_c作为实验的距离度量。

在进行CM实验时，加入了线性判别KCCA方法，最终结果表明KCCA和LD-KCCA性能较好。如下图。
在这里插入图片描述

图4.4 CM实验结果

然后是SM实验。论文比较了3种分类器，结果表明逻辑回归分类器性能最好。如下图。
在这里插入图片描述

图4.5 SM实验结果

最后进行了整体的跨媒体检索实验，包括CM、SM、SCM和Baseline的对比实验。如图所示。
在这里插入图片描述

图4.6 CM、SM、SCM和TTI对比实验结果

实验表明，SCM算法获得了最好的检索效果。

4.4 讨论

本文是[1]的扩充版，更加详细的介绍了CM、SM、SCM算法。

5 2015- Multi-Label Cross-modal Retrieval[6]

5.1 主要思想

本文提出多标签典型相关分析，以解决多标签注释的跨媒体检索问题。
常用的CCA方法由于简单性和高效率而广受欢迎，但它有几个缺点。最明显的缺点是CCA无法考虑高级的语义信息，比如数据的类标签。

本文提出的多标签典型相关分析（ml-CCA），可以利用多标签信息，同时学习两种模态的共同语义空间。此外也提出了fast ml-CCA，相比于ml-CCA，大大提高了效率。

5.2 模型

对于多标签数据集，不同模态之间存在自然的多对多对应关系，即来自一种模态的每个数据点与来自另一模态的若干其他数据点相关。如图5.1所示。
在这里插入图片描述

图 5.1 4种CCA方法的对应关系图5.1中，圆圈和方块表示两种模态的数据点。‘+’、‘-’、‘x’标明了类标签。在cluster-CCA中，一种模态中的每个点与另一个模态中的所有相同的类点配对。在3view-CCA中，第一模态中的每个样本与来自第二模态的单个样本配对，并且两个样本与基础标签配对。在ml-CCA中，一组中的样本可与第二组中的多个样本配对。

5.3 多标签典型相关分析算法（Multi-Label C anonical Correlation Analysis,ml-CCA）

见论文[6] 3.2节。

5.4 实验

略。

参考文献

[1] N. Rasiwasia et al., “A new approach to cross-modal multimedia retrieval,” in Proc. ACM Int. Conf.
Multimedia (ACM MM), 2010, pp. 251–260.
[2] G. Andrew, R. Arora, J. Bilmes, and K. Livescu, “Deep canonical correlation analysis,” in Proc. Int. Conf. Mach. Learn. (ICML), 2013, pp. 3408–3415.
[3] S. J. Hwang and K. Grauman, “Learning the relative importance of objects from tagged images for retrieval and cross-modal search,” Int. J. Comput. Vis., vol. 100, no. 2, pp. 134–153, 2012.
[4] N. Rasiwasia, D. Mahajan, V. Mahadevan, and G. Aggarwal, “Cluster canonical correlation analysis,” in Proc. Int. Conf. Artif. Intell. Statist. (AISTATS), 2014, pp. 823–831.
[5] J. C. Pereira et al., “On the role of correlation and abstraction in crossmodal multimedia retrieval,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 3, pp. 521–535, Mar. 2014.
[6] V. Ranjan, N. Rasiwasia, and C. V. Jawahar, “Multi-label cross-modal retrieval,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 4094–4102.