向量数据库调研

背景

随着行业内AI战略的铺开。 知识的存储跟表达也有了新的标准。对于向量数据产生了存储检索的需求。向量这个数学表达,在目前是人与AI交互的中间媒介。 所以我们有必要深入探讨向量数据库,并对当前主流的数据库做一些对比分析。

什么是向量数据库?

简单下个定义,因为喂给Transformer的知识首先需要做embedding,所以用于存储embedding之后数据的数据库即可称为向量数据库。

向量数据库需要解决什么问题?因为向量数据库是基于embedding之后的向量的存储与检索。所以首先需要提供存储能力,其次更重要的是检索。

即如何根据一个query快速找到相关的embedding内容。

关于检索,主要是计算两个向量之间的相似度。

推荐的计算两个向量之间距离推荐的算法为: 余弦相似度函数, 其表达式如下:

常见的向量数据库

向量检索是一个革命性的技术,使得开发者和工程师可以将知识或数据向量化之后实现更有效的存储、检索以及推荐。

通过对比这些向量两两之间的相似性,可以实现快速、直观、无缝的信息检索。

Pinecon

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值