arXiv2023 | 联合embedding优化的自适应近似最近邻搜索(AdANNS)

AdANNS是一个研究ANNS与embedding结合优化的框架,它提出使用自适应而非固定向量表示来提升搜索效率和精度。通过MatryoshkaRepresentations(MRs)实现嵌套向量结构,解决了现有方法在不同阶段需不同粒度表示的问题,且能应用于如IVF,HNSW,DiskANN等方法。文章强调了在embedding阶段进行优化的重要性,并指出精度评估应基于真实标签,而不仅仅是ANNS邻域的常见做法。

论文信息

论文题目:AdANNS: A Framework for Adaptive Semantic Search

在这里插入图片描述

主要内容

Adaptive ANNS: AdANNS

本文研究ANNS+embedding结合在一起的优化。本文指出当前ANNS使用固定的向量表示(rigid representation),而不是自适应的向量表示(adaptive representation)。一般而言,在当前的ANNS方法中,不同的阶段一般需要不同的向量表示粒度(granularities)。比如,一个ANNS方法通常被划分为粗粒度阶段和细粒度阶段。尽管当前一些降维方案比如PQ,随机映射等可以改变向量表示,但这会带来严重的精度损失。本文在embedding过程便考虑向量表示的自适应性,带来显著的精度和效率收益。

本文用的数据集是包含原始数据,因为本文需要在embedding阶段做优化。

AdANNS可以应用到当前很多ANNS方法中,比如IVF,HNSW,DiskANN。

方法论

本文主要使用Matryoshka Representations (MRs),MRs的技术细节可参考论文中的引用。简单地说,MRs得到一种嵌套向量表示结构,即低维向量表示是高维向量表示的前缀。

一些考虑

  1. 本文的精度评估应该是通过真实标签计算的,而非在ANNS邻域通常用的根据暴力搜索结果计算。首先,本文精度评估方式从真实应用角度更具参考意义,但是论文中给出的精度值(Top-1 accuracy)不知道embedding的误差和搜索方法带来的误差这两种误差那个更大。
  2. 结合具体应用,联合embedding和ANNS当前在NLP领域有很多研究工作。针对ANNS中的一些特征/问题,在embedding上做优化或者端到端优化有很多可做的事情。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值