Transductive Zero-Shot Hashing via Coarse-to-Fine Similarity Mining ＜阅读笔记＞

最新推荐文章于 2024-04-09 18:59:10 发布

hzm861569109

最新推荐文章于 2024-04-09 18:59:10 发布

阅读量177

点赞数

分类专栏： zero-shot hash 文章标签：深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/qq_46025283/article/details/120429790

版权

本文介绍了Transductive Zero-Shot Hashing方法，通过粗到细的相似性挖掘解决源数据与目标数据分布差异导致的映射偏移问题。采用共享参数的双流网络学习通用语义表示，再通过粗模块和细模块挖掘相似性，实现知识从源到目标的转移。该方法结合了zero-shot学习与哈希，旨在提高未见过类别识别的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文出处: Transductive Zero-Shot Hashing via Coarse-to-Fine Similarity Mining | Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval

出版于: Proceedings of the 2018 ACM on International Conference on Multimedia Retrieva

zero-shot 背景

框架(A)部分的解读, 共享参数的双流网络通用语义表示

框架(B)部分的解读，粗模块相似度挖掘

框架(C)部分的解读，细模块相似度挖掘

汉明空间上的相似性保留 Similarity-Preserving Loss

zero-shot 背景

现在在人工智能领域，以卷积网络为代表的深度神经网络使用是十分频繁，其达到的效果也是相对较好的。在卷积神经网络训练的过程中，需要人为提供数据集(图片和对应的标注信息即label)。数据集的质量直接决定了模型效果的好坏，而且数据集的收集会给我们带来大量的劳动力。更关键的是，传统的卷积网络模型只能识别在其训练过程中所见过的类别。例如，我们在模型训练期间只给了猫、狗两种动物的数据集，那当我们在测试的时候想用它去识别老虎就无法做到。因为卷积网络效果依赖它在训练期间所见过的图片。在人工智能兴起的时候，我们把神经网络比作是我们人类大脑，在模型识别物体的过程比作是我们人脑去识别的一个过程。在浅层的卷积网络过程中，它主要提取的是物体的轮廓信息，这和我们人类第一眼看东西很相似，我们第一眼所捕获的信息也是粗略的轮廓信息。在深层的卷积网络过程中，它会去提取物体的深层抽象信息，关注一些更细节的部分，这也和我们深入了解一个物体过程是相似的。既然神经网络当时的提出，是与我们人类认知新事物密切关联的。那会不会有一种东西，能够模仿人类学习能力。当然这种学习能力是指，未见过这个物体但是对这个物体有先验知识使得我们在遇到这个物体的时候能够对其识别。举个栗子把，一个5岁小孩小章，它没有见过彩虹但是知道红橙黄绿蓝靛紫七种颜色，但是我告诉他彩虹是有红橙黄绿蓝靛紫色的，那当他下次看到七种颜色组成的物体，他就会去猜测这就是彩虹吧。当然这也就是zero-shot的提出背景，它能够很好的模仿人类对新事物的学习能力。

回到本文，这是一篇18年将zero-shot和hash结合的论文。

大多数现有的ZSH(zero-shot-hash)方法，常见的做法是，在source和target引入一个公共空间，分别将语义信息和视觉信息在公共空间中对齐。然而，这种做法会有一个常见问题，那就是source的图片分布和target图片分布不同，这样的映射会出现偏移(shift)。作者针对这个问题，提出了一种联合学习方法，通过从粗到细的相似性挖掘将知识从source转移到target。其提出的模型结构主要由两部分构成，1)、共享参数的双流网络，学习公共的图像表示，第一个流是source图像(带有标记图像)，第二个流是target图像(缺乏标记的图像)。2)、从粗到细的模块，以贪婪的方式将source数据的相似性传递给目标数据。首先对未标记的数据进行粗略搜索，找出与source数据最不相似的图像，然后通过精细模块检测找到的图像之间的相似性。