Deep Learning of Binary Hash Codes for Fast Image Retrieval

最新推荐文章于 2023-07-26 07:49:31 发布

原创最新推荐文章于 2023-07-26 07:49:31 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #hash

论文总结同时被 2 个专栏收录

20 篇文章

订阅专栏

deep hash

5 篇文章

订阅专栏

本文介绍了台湾中研院在CVPR2015年发表的研究，探讨如何使用深度学习生成二进制哈希码以实现快速图像检索。研究中，作者在CNN网络的第7层后加入全连接层，模仿LSH，以二进制串形式表示图像特征。通过分类任务损失进行微调，并提出层次搜索策略，先基于语义信息检索，再利用中层特征细化候选集。实验在MNIST、CIFAR-10和Yahoo-1M数据集上进行，展示了方法的有效性。

Deep Learning of Binary Hash Codes for Fast Image Retrieval

论文下载地址
这是一篇台湾中研院发表在CVPR2015年的文章。
之前deep hash，一般来说，网络根据图像的label，输入一个二元组或者三元组，利用CNN网络提取出图像的特征，根据相同的label应该具备比较接近的海明距离作为网络的优化目标，然后提出一种新的目标函数，采用优化策略使函数能够求导，利用BP算法，得到最优解。本篇paper主要有以下几点贡献：

在第7层后加入了一个全连接层，类似于LSH的作用，得到了二进制串。
训练采用分类任务的loss进行finetune。
检索的过程采用了层次的搜索。

Method

图 1 主要结构

整个过程主要有以下三部分：

在大规模的数据集进行pre-training
加入Latent layer，利用分类的loss进行fine tune
图像搜索过程中，采用hierarchy deep search

最近研究发现，输入的图像经过网络 $F_{6-8}$ 得到的信息在图像分类，检索中有很大作用。但是这些信息又是高维（上千维）的特征，这些特征直接用于检索，将会非常耗时。直观的想法就是把这些有效的特征用来压缩变成二进制特征，来进行计算海明距离。所以，作者修改了网络结构，在 $F_7$ 和 $F_8$ 之间加入了全连接层，fine-tune的过程中，随机初始化latent layer进行训练。