达摩院资深技术专家：揭秘比Faiss更胜一筹的向量检索引擎Proxima

最新推荐文章于 2025-06-22 16:43:43 发布

AI 检索技术社区

最新推荐文章于 2025-06-22 16:43:43 发布

阅读量740

点赞数

CC 4.0 BY-SA版权

分类专栏：阿里巴巴技术文章文章标签：深度学习机器学习搜索引擎阿里巴巴

本文链接：https://blog.youkuaiyun.com/DAMO_Proxima/article/details/117339785

摘要：淘宝搜索推荐、视频搜索的背后使用了什么样的检索技术？非结构化数据检索，向量检索，以及多模态检索，它们到底解决了什么问题？今天由阿里巴巴达摩院的科学家从业务问题出发，抽丝剥茧，深度揭秘达摩院内部技术——向量检索引擎 Proxima，以及相关领域的现状、挑战和未来。

人工智能，简称 AI，是计算机发明时就存在的一个技术领域。它的一大核心特点就是可以类人脑地辅助人类工作。其通过一系列数学的方法，如概率论、统计、线性代数等，分析和设计出能让计算机自动学习的算法。

如下图所示，人工智能算法可以对物理世界的人/物/场景所产生各种非结构化数据（如语音、图片、视频，语言文字、行为等）进行抽象，变成多维的向量。这些向量如同数学空间中的坐标，标识着各个实体和实体关系。我们一般将非结构化数据变成向量的过程称为 Embedding，而非结构化检索则是对这些生成的向量进行检索，从而找到相应实体的过程。

在这里插入图片描述

非结构化检索本质是向量检索技术，其主要的应用领域如人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等。随着 AI 技术的广泛应用，以及数据规模的不断增长，向量检索也逐渐成了 AI 技术链路中不可或缺的一环，更是对传统搜索技术的补充，并且具备多模态搜索的能力。

一业务场景

1 语音/图像/视频检索

向量检索的第一大类应用就是对语音、图像、视频这些人类所接触到的，也最为常见的非结构化数据的检索。传统的检索引擎只是对这些多媒体的名称和描述进行了索引，而并没有尝试对这些非结构数据的内容进行理解和建立索引，因此传统引擎的检索结果具有非常大的局限性。

随着人工智能的发展，AI 的能力使得我们可以快速且成本较低地对这些非结构化数据进行理解，这样就使得对这些非结构化的数据内容进行直接检索成为了可能。这其中，很重要的一环就是向量检索。

如下图所示，以图片搜索为例，我们先以离线的方式对所有历史图片进行机器学习分析，将每一幅图片（或者图片里分割出来的人物）抽象成高维向量特征，然后将所有特征构建成高效的向量索引，当一个新查询（图片）来的时候，我们用同样的机器学习方法对其进行分析并产出一个表征向量，然后用这个向量在之前构建的向量索引中查找出最相似的结果，这样就完成了一次以图片内容为基础的图像检索。

在这里插入图片描述

2 文本检索

向量检索其实很早就已经在常见的全文检索中用到了。我们这里用地址检索为例来简单介绍下向量检索技术在文本检索中的应用情况和价值。

如下图左边的例子，我们想在标准地址库中搜索“浙一医院”（而标准地址库中恰恰又没有“浙一”这个关键词，“浙一医院”的标准地址是“浙江大学医学院附属第一医院”），如果我们只使用文本分词（“浙一”和“医院”），在标准地址库中是不会找到相关结果的（因为“浙一”这个地址不存在）。但是我们如果能够利用对人们历史语言，甚至之前的点击关联进行分析，建立起语义相关性的模型，把所有的地址都用高维特征来表达，那么“浙一医院”和“浙江大学医学院附属第一医院”的相似度可能会非常高，因此可以被检索出来。

另外一个例子，如下图右边所示，同样是地址查询，如果我们想在标准地址库中搜索“杭州阿里巴巴”的地址，在仅使用文本召回的时候，几乎没办法找到相似的结果，但是我们如果通过对海量用户的点击行为进行分析，将点击行为加上地址文本信息合并形成高维向量，这样在检索的时候就可以天然的将点击率高的地址召回并排列在前面。