概率序数保持语义哈希:高效数据处理新方法
1. 哈希技术概述与问题提出
在大规模数据分析,尤其是处理不断增长的高维视觉数据时,哈希技术发挥着重要作用。它能够快速计算相似度并有效管理内存,通过一系列哈希函数将高维视觉特征转换到更紧凑的汉明空间。哈希的基本目标是在特征压缩过程中保留相似性关系,这就需要在原始视觉特征和学习到的二进制代码之间进行一致的测量,以确保具有相似语义内容的样本由相似的二进制代码表示。
基于哈希的方法可大致分为无监督哈希模型和有监督哈希模型。有监督语义保持哈希利用判别性语义知识,表现优于无监督方法。有监督哈希又可进一步分为分段语义保持哈希和成对语义保持哈希,前者使用语义标签学习判别性哈希码,后者注重保留样本之间的成对关系。
然而,当前哈希码学习存在一些问题:
- 样本相关性和语义适应性不足 :分段语义保持哈希常忽略样本间的相关性,而成对语义哈希在利用判别性类别信息方面有所欠缺。
- 离散约束问题 :对哈希码施加离散约束会使目标函数变为NP难的混合整数问题,常见的两步松弛算法会导致生成低质量的哈希码。
- 训练和查询样本分布差异 :现有哈希方法未能充分解决训练和查询样本分布的差异问题。
2. 概率序数保持语义哈希(POSH)方法介绍
为解决上述问题,提出了概率序数保持语义哈希(POSH)方法。该方法在贝叶斯推理框架下,将三元组相似度中的序数相关性保留与自适应语义重建相结合。其学习框架包含概率序数相似性保留、量化和语义保留三个概率组件。
- 概率序数相似性
POSH:概率序数保持语义哈希技术
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



