Deep Visual-Semantic Hashing for Cross-Modal Retreival (DVSH)

最新推荐文章于 2024-10-10 07:14:33 发布

原创最新推荐文章于 2024-10-10 07:14:33 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#跨模态哈希检索

提出一种end-to-end深度学习方法DVSH，用于图像和文本的跨模态检索。该方法通过联合嵌入空间学习图像与文本的同构哈希编码，并引入cosine最大边界loss及bitwise最大边界loss来保持pairwise相似性和提高哈希码质量。

会议：2016 KDD

Problem：使用DVSH以一种end-to-end的深度学习方式对图像和文本生成紧凑的哈希编码。

Contributions：1. 一个深度的视觉-语义融合网络用以在联合嵌入空间学习同构的哈希编码，从而每一个image-sentence对的表达被紧紧地融合和联系在一起。2.一个图像的哈希网络和一个句子的哈希网络，可以学习特定模态的非线性哈希函数，该哈希函数可以将图像和句子映射到联合嵌入空间中，得到紧致的哈希编码。3. 一种新的cosine最大边界loss，可以用于保持pairwise的相似性信息以及增强对outliers的鲁棒性。4.一种新的bitwise最大边界loss，用以控制binary哈希编码的质量。

Methods：