论文信息
论文题目:AdANNS: A Framework for Adaptive Semantic Search

主要内容
Adaptive ANNS: AdANNS
本文研究ANNS+embedding结合在一起的优化。本文指出当前ANNS使用固定的向量表示(rigid representation),而不是自适应的向量表示(adaptive representation)。一般而言,在当前的ANNS方法中,不同的阶段一般需要不同的向量表示粒度(granularities)。比如,一个ANNS方法通常被划分为粗粒度阶段和细粒度阶段。尽管当前一些降维方案比如PQ,随机映射等可以改变向量表示,但这会带来严重的精度损失。本文在embedding过程便考虑向量表示的自适应性,带来显著的精度和效率收益。
本文用的数据集是包含原始数据,因为本文需要在embedding阶段做优化。
AdANNS可以应用到当前很多ANNS方法中,比如IVF,HNSW,DiskANN。
方法论
本文主要使用Matryoshka Representations (MRs),MRs的技术细节可参考论文中的引用。简单地说,MRs得到一种嵌套向量表示结构,即低维向量表示是高维向量表示的前缀。
一些考虑
- 本文的精度评估应该是通过真实标签计算的,而非在ANNS邻域通常用的根据暴力搜索结果计算。首先,本文精度评估方式从真实应用角度更具参考意义,但是论文中给出的精度值(Top-1 accuracy)不知道embedding的误差和搜索方法带来的误差这两种误差那个更大。
- 结合具体应用,联合embedding和ANNS当前在NLP领域有很多研究工作。针对ANNS中的一些特征/问题,在embedding上做优化或者端到端优化有很多可做的事情。
AdANNS是一个研究ANNS与embedding结合优化的框架,它提出使用自适应而非固定向量表示来提升搜索效率和精度。通过MatryoshkaRepresentations(MRs)实现嵌套向量结构,解决了现有方法在不同阶段需不同粒度表示的问题,且能应用于如IVF,HNSW,DiskANN等方法。文章强调了在embedding阶段进行优化的重要性,并指出精度评估应基于真实标签,而不仅仅是ANNS邻域的常见做法。
1015

被折叠的 条评论
为什么被折叠?



