基于ElasticSearch的向量检索技术实践
作者:Tableau
原文地址:https://zhuanlan.zhihu.com/p/620260383
图片、视频、语音、文本等非结构化数据可以通过人工智能技术(深度学习算法)提取特征向量,然后通过对这些特征向量的计算和检索来实现对非结构化数据的分析与检索。 针对向量检索常见的应用场景有:
-
图片识别:以图搜图,通过图片检索图片;人脸识别
-
自然语言处理:基于语义的文本检索。
-
声纹匹配:音频检索。
-
电商推荐:提取用户个性化特征或是商品的个性化属性,提高推荐模型的准确性,获得更加精确的推荐结果。
-
知识图谱:智能搜索,智能问答,个性化推荐。

后续研究实践,以人脸为例,进行讨论介绍。

向量检索面临的挑战主要在以下几个方面
-
高维数据:向量数据维度通常是 256/512 维。
-
海量数据:在电商场景图片搜索或者商品知识图谱等,
-
向量数据通常在千万到亿别级别。
-
高召回:为保证检索效果,精度召回率通常要求 95% 以上。
-
高性能:为保证用户体验,向量检索的响应要求毫秒级。
工程落地面临的挑战
-
系统高可用:需要实现一个分布式高可用系统
-
向量检索算法:需要根据不同场景,召回率和性能要求使用不同算法,并进行性能优化
-
通用的向量检索:适用于各种场景
-
与传统搜索结合:在向量检索的同时,需要其他一些业务字段的查询,过滤,和排序
向量检索简介
向量检索与机器学习分类问题

在人脸识别的过程中,输入的人脸图片会转化为人脸特征值向量保存在计算机中作为人脸库,假设右图方块表示小王的多个人脸图片的特征值向量,三角表示小李的多个人脸特征值向量绿色向量表示输入的一张未知人脸图片的特征值向量。使用两向量的距离评估两向量表示的人脸的相似度在右图中与绿色新向量距离最近的为一方块向量,因此认为新输入的图片最有可能是小王的人脸图片。与人脸识别问题类似的其他的机器学习分类问题中,向量检索也是应用流程中的重要环节。
向量距离
KNN 检索最重要的子问题是如何评估任两个向量间的距离,机器学习聚类算法中最常用的距离是欧式距离和余弦距离。对某二维平面上两点
![]()
**欧式距离:两向量终点连线的长度

**余弦距离:两向量夹角的余弦值

最低0.47元/天 解锁文章
1030

被折叠的 条评论
为什么被折叠?



