哈希学习算法之二：基于hash的ANN框架

最新推荐文章于 2024-07-30 17:53:55 发布

Daemon在路上

最新推荐文章于 2024-07-30 17:53:55 发布

阅读量1.6k

点赞数 1

分类专栏：哈希算法

哈希算法专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨基于Hash的近似最近邻(ANN)搜索框架，详细阐述了特征提取、hash编码、汉明距离排序及重排序四个核心步骤。通过哈希学习算法，实现高维数据的有效压缩和快速匹配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一节了解了ANN的背景，简单介绍了hash的算法，那基于hash的ANN框架是怎样的呢？

框架图

在这里插入图片描述

框架说明

基于hash的ANN主要有四个步骤，包括特征提取、hash编码（学习+编码）、汉明距离排序、重排序。

1、特征提取
有查询图像和图像数据库，需要对这两类分别处理，对查询图像和数据库中的图像逐一提取有用的特征，把文件名和特征一一对应的添加到特征库中。

2、hash编码（学习+编码）
特征提取后的维数有很多，需要对其进行压缩再匹配，这是hash编码的意义。hash编码自然要使用hash函数，在大规模高维数据下，hash函数使用hash学习的方法获得，则该部分内容分为hash学习和hash编码阶段。Hash学习阶段，可将特征库分为训练集和测试集，评估测试hash函数。正式的编码阶段，将特征库的每个特征点代入到hash函数中，得到hash编码。

3、汉明距离排序
在获得hash编码之后，经过汉明距离排序，就可以完成粗查找，得到粗查找之后的候选列表。对查询图像的hash码和编码之后的特征库hash码比对距离（这里使用汉明距离），按照从小到大的方式相似性排序，可以获得指定个数的候选点或者距离在某一范围内的n个候选点。

4、重排序
粗查找之后获得的n个候选点，在原始特征空间上，根据相似性重排序（这里采用欧式距离），返回最后的候选列表。

注意

以上步骤中，哈希学习算法在第二步哈希编码中应用，哈希过程可视为一个筛选样本和粗查找的过程，则评价哈希算法的好坏限于该过程，不包括重排序阶段。
ANN中是包括这一步的。

参考链接：https://www.jianshu.com/p/82a14f1aa453

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。