9、概率序数保持语义哈希:高效数据处理新方法

POSH:概率序数保持语义哈希技术

概率序数保持语义哈希:高效数据处理新方法

1. 哈希技术概述与问题提出

在大规模数据分析,尤其是处理不断增长的高维视觉数据时,哈希技术发挥着重要作用。它能够快速计算相似度并有效管理内存,通过一系列哈希函数将高维视觉特征转换到更紧凑的汉明空间。哈希的基本目标是在特征压缩过程中保留相似性关系,这就需要在原始视觉特征和学习到的二进制代码之间进行一致的测量,以确保具有相似语义内容的样本由相似的二进制代码表示。

基于哈希的方法可大致分为无监督哈希模型和有监督哈希模型。有监督语义保持哈希利用判别性语义知识,表现优于无监督方法。有监督哈希又可进一步分为分段语义保持哈希和成对语义保持哈希,前者使用语义标签学习判别性哈希码,后者注重保留样本之间的成对关系。

然而,当前哈希码学习存在一些问题:
- 样本相关性和语义适应性不足 :分段语义保持哈希常忽略样本间的相关性,而成对语义哈希在利用判别性类别信息方面有所欠缺。
- 离散约束问题 :对哈希码施加离散约束会使目标函数变为NP难的混合整数问题,常见的两步松弛算法会导致生成低质量的哈希码。
- 训练和查询样本分布差异 :现有哈希方法未能充分解决训练和查询样本分布的差异问题。

2. 概率序数保持语义哈希(POSH)方法介绍

为解决上述问题,提出了概率序数保持语义哈希(POSH)方法。该方法在贝叶斯推理框架下,将三元组相似度中的序数相关性保留与自适应语义重建相结合。其学习框架包含概率序数相似性保留、量化和语义保留三个概率组件。
- 概率序数相似性

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值