arXiv2023 | 联合embedding优化的自适应近似最近邻搜索（AdANNS）

最新推荐文章于 2025-12-23 23:05:49 发布

原创最新推荐文章于 2025-12-23 23:05:49 发布 · 1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #ANNS #向量检索

AdANNS是一个研究ANNS与embedding结合优化的框架，它提出使用自适应而非固定向量表示来提升搜索效率和精度。通过MatryoshkaRepresentations(MRs)实现嵌套向量结构，解决了现有方法在不同阶段需不同粒度表示的问题，且能应用于如IVF,HNSW,DiskANN等方法。文章强调了在embedding阶段进行优化的重要性，并指出精度评估应基于真实标签，而不仅仅是ANNS邻域的常见做法。

论文信息

论文题目：AdANNS: A Framework for Adaptive Semantic Search

在这里插入图片描述

主要内容

Adaptive ANNS: AdANNS

本文研究ANNS+embedding结合在一起的优化。本文指出当前ANNS使用固定的向量表示（rigid representation），而不是自适应的向量表示（adaptive representation）。一般而言，在当前的ANNS方法中，不同的阶段一般需要不同的向量表示粒度（granularities）。比如，一个ANNS方法通常被划分为粗粒度阶段和细粒度阶段。尽管当前一些降维方案比如PQ，随机映射等可以改变向量表示，但这会带来严重的精度损失。本文在embedding过程便考虑向量表示的自适应性，带来显著的精度和效率收益。

本文用的数据集是包含原始数据，因为本文需要在embedding阶段做优化。

AdANNS可以应用到当前很多ANNS方法中，比如IVF，HNSW，DiskANN。

方法论

本文主要使用Matryoshka Representations (MRs)，MRs的技术细节可参考论文中的引用。简单地说，MRs得到一种嵌套向量表示结构，即低维向量表示是高维向量表示的前缀。

一些考虑

本文的精度评估应该是通过真实标签计算的，而非在ANNS邻域通常用的根据暴力搜索结果计算。首先，本文精度评估方式从真实应用角度更具参考意义，但是论文中给出的精度值（Top-1 accuracy）不知道embedding的误差和搜索方法带来的误差这两种误差那个更大。
结合具体应用，联合embedding和ANNS当前在NLP领域有很多研究工作。针对ANNS中的一些特征/问题，在embedding上做优化或者端到端优化有很多可做的事情。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。