AI生成存储基座：自研超大规模向量数据库 Dolphin VectorDB

阿里妈妈技术

于 2024-03-20 19:00:42 发布

阅读量1.4k

点赞数 30

文章标签：人工智能数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/alimama_Tech/article/details/136896529

版权

一、业务背景

随着以OpenAI为代表的AI生成式技术不断突破，在万物皆可向量化的时代直接带动向量计算和存储需求大幅提升，让向量存储和计算技术关注度达到新高，业界涌现出各类向量数据库。阿里妈妈拥有丰富的AI应用场景，我们基于过去在向量引擎的积累和AI场景下需求，在近五年时间里不断迭代升级，沉淀出Dolphin VectorDB，具有大规模、高性能、低成本且易开发的优势，在妈妈内容风控、营销知识问答、达摩盘人群AI圈人和AI经营分析师等场景中落地应用。尤其在支持内容风控10亿级超大规模向量检索场景中，使用Dolphin VectorDB表现出性能、成本及易用性综合优势，获得显著收益：

索引构建加速：索引构建时间减少71%。
检索速度更快：检索RT快3倍。
资源使用更省：服务资源节省75%。
研发效能提升：开发向量召回业务效率从天/小时提升到分钟级别。

二、行业技术调研

业界主要分为向量数据库和有向量能力的数据库两条技术路线：

向量数据库 (Specified Vector Database)：提供基于SDK的RPC/HTTP调用，专门用于向量数据的构建、存储和查询。
支持向量能力的数据库：基于已有各类通用数据库系统，再结合向量库(Vector Library)实现向量数据的构建、存储和查询能力。

业界产品划分

2.1 业界现状

业界向量数据库百花齐放，但面临复杂业务场景仍有些不足：

传统支持向量能力的数据库主要面向静态向量数据，不适用于索引数据频繁更新场景，不支持实时向量写入及更新。
向量数据库普遍支持在线计算，但没有专门针对离线批量计算场景，而真实场景同一业务会有在线和离线批量两类计算需求，很多情况下在线和离线计算不是一套服务，导致在线和离线因索引不同查询结果不一致。
现有产品在大规模、高性能和低成本这三个方面很难平衡，既能满足大规模、高性能，还能保证低成本的挑战很大。

基于当前现状，Dolphin VectorDB选择第二条技术路线（支持向量能力的数据库），基于Dolphin多年在MPP数据库方向能力积累，实现高性能向量数据库能力。

三、技术演进

Dolphin（延展阅读：Dolphin：面向营销场景的超融合多模智能引擎）自2019年开始探索向量计算，向量引擎底层计算能力经历从最初版使用Hologres内置向量插件，到基于Faiss自研2.0版，逐步迭代到3.0版基于DFS共享存储（DFS类似开源的HDFS），最后升级到现在的Dolphin VectorDB，每一次升级背后都是业务规模扩展和新功能需求，推动技术不断迭代进化。

3.1 向量引擎1.0

为支撑阿里妈妈达摩盘和直通车BP人群Lookalike业务（Lookalike是一种基于种子人群特征放大人群规模的算法技术

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。