几篇经典的就不说了,最近看了下面几篇文章,也许能够有点启发
DeViSE: A Deep Visual-Semantic Embedding Model
主要工作:实现一个deep visual-semantic embedding model同时使用标注的图像数据和文本的语义信息来进行目标识别
主要贡献:使用文本数据学习不同label之间的语义关联,将图像映射到一个语义空间中,能够对未知的category预测label
评价:这篇文章主要还是做的类似目标识别的工作,先分别预训练了两个图像和文本的模型,然后再映射到他自己的embedding model中进行统一度量
Modeling Documents with Deep Boltzmann Machines
主要工作:实现一个DBM来提取文本的语义表示
主要贡献:提出了一个新的模型Over-Replicated Softmax model,在原有的Replicated Softmax model的基础上,增加了一个hidden units层,提升了模型性能,在training和performance上达到平衡。
Effective MultiModal Retrieval based on Stacked AutoEncoders
主要工作:实现stacked auto-encoders来将不同模态的高维特征映射到一个低维的统一空间
主要贡献:目标函数同时考虑modal内部和modal之间的语义关联,需要很少的prior knowledge
评价:其实并没有看出太大的贡献之处,对于文本和图像两个modal分别得到两个stacked auto-encoders(SAE),将文本和图像特征映射到一个统一空间。在训练过程,先单独对两个SAE进行训练,然后将两个SAE结合起来训练,来实现贡献中提到的同时考虑modal内部和modal之间的语义关联
在wiki的数据集上,图像使用128维的SIFT特征,文本特征维数为1000维,但是训练集和测试集的划分和我们自己的不太一样,结果也不