论国产数据库发展趋势(下)- 超弦数据库

前言

目前真实的情况是,我们也顶不住了,不断衍生的数据模型(关系、KV、Doc、时序、图、向量...),不断产生的场景(OLTP/OLAP、批处理/流处理、数据湖/数据仓),即便是国内的TOP级科技公司,投入了上千人的研发队伍,依然在面临这些问题时需要不断的缝缝补补,不断地融合拆分。

所以当前的实际痛点是:越来越多的数字化场景和越来越多的数据库产品,跟越来越难维护的数据成本之间的矛盾。

如此情形,又如何让整个社会,整个产业全方位迈入数字信息化时代呢?

用之前的经验和老路,注定无法取得成功。

所以,我们一定要革新。

数据库的本质其实是:存取之道

天下大势,合久必分,分久必合。上世纪八九十年代,数据库趋势以和为主,而 21 世纪的头十几年,数据库以分为主要趋势,面向细分场景去开发数据库,以解决该场景下的问题,所以形成了很多的数据库品类,简称:专库专用

现在新的一个轮回又到了。

1.什么是超炫数据库

数据库产品的发展情况大致如下:

纵观历史其实我们发现,从1970年关系型数据库发展开始,到今天为止,所有新产生的的数据库技术或数据库产品依然没有逃离关系模型的影响,即:所有的数据想要产生价值,必然要支持可关联查询的能力。

正是因为这个本质原因,才导致了当前不同数据类型,不同数据场景,不同数据库产品的诞生。

因为我们无法实现二维数据与三维数据之间的关联关系的建立。

直到向量数据概念的出现,它未必是最优解,但是切实的提供了一个目前来看比较完美的实现思路。

即:升维管理,降维查询

为了纪念这个概念形态的产生,所以我称之它为 超弦DB(Superstring Database)

2.超弦DB的诞生

当前数据库市场的三种理论:

实现架构

优势

劣势

代表厂家

方案1

专库专用

多种数据库管理多种模型

  • 100%开源兼容,不被锁定

  • 单一场景做到极致性价比

  • 实现上根据不同引擎的投入产出更加可控

  • 实现难度低

  • 接口不统一,有学习成本

  • 选型成本高

AWS 及其他云厂家

方案2

一专多能

一种数据库管理多种模型

  • 接口统一,使用方便

  • 运维统一,选型成本低

  • 支持不同模型关联查询

  • 难以兼容开源,迁入容易迁出难

  • 多能方面,性能难以做到极致

  • 实现困难

SQL Server,Oracle,PG,MongoDB...

方案3

多模融合

通过插件化接口连接管理多种模型

  • 接口统一,使用方便

  • 运维统一,选型成本低

  • 支持跨模型查询,不支持关联

  • 实现难度低

  • 有一致性问题

  • 维护成本高

Lindorm,CosmosDB,YMatrix

以上可知融合已经当前数据库发展的主流趋势,同时也是最接近未来数据库形态的产品,但是他依然存在一个核心问题没有有效解决,即:如何实现二维数据与三维数据之间的关联关系的建立

同时多模融合产品中各家的形态上也存在较大差异,我个人认为YMatrix的形态更适合于向终极形态转变,所以下面我将基于YMatrix的架构进行推衍说明。

阶段一:多模融合

阶段二:超弦诞生

阶段三:超弦成长

阶段模型

阶段说明

  • 查询层:通过一套统一的查询层来融合多个独立的数据库,

  • 多模引擎:计算 & 存储 可以不用分离这样更简洁

  • 开放生态:积极的兼容各类开源生态,用户独立引擎怎么用上来还怎么用;积极接入文件,S3,AIGC系统,快速服务业务价值

  • 服务层:做好管控,运维,迁移,生态工具,进一步降低使用门槛,运维成本

  • 超弦层:在各数据引擎的后面默认生成一套超弦层,通过向量理论支持索引构建,高维数据与低维数据之间通过超弦Meta进行映射管理

  • 查询层:在此基础上,支持通过类SQL语法,实现高维数据之间的数据关联,并能够通过多维度多层级进行查询下沉

  • 超弦层:在超弦层发展到一定阶段,即可实现对数据模型,数据关系的最终整合

  • 查询层:在AI模型的加持下,最终将逐渐形成一套DBforAI + AIforDB 的新时代数据库产品,并最终基于SQL语法衍生出一套新的高阶类自然语言,我将其称为超弦语言 或 超弦SQL

阶段目标

以最小的代价DIY一个多模数据产品;同时也不阻碍各类引擎的独立发展;

一切为收敛技术栈,支持客户业务实现

既能保障专库专用,又能实现解耦融合

通过超弦层,建立高维关系,并实现降维查询

专库专用继续向前发展做到极致

超弦管理逐步收敛场景打通模型

通过超弦语言 + AIGC,最终人类将摆脱程序开发的束缚,实现

查询即结果,数据即结果

长远目标

虽然收敛了技术栈,但是数据库依然是独立的,就跟服务化上云一样,解决了一部分问题,但是并没有打破瓶颈,本质上还是在做降本增效的事情。

这样我们就像展开了一张大网,当一种数据库形态发展到某种阶段的时候,我们就可以真正的将它融合进来,超弦DB最终将成为数据库吞噬者

当发展到这个阶段的时候,未来的画面将在我们的眼前展开,大家可以畅想一下,一个数字化的虚拟世界,将跟现实世界高度融合。生产力,生产关系,将产生跨时代的进步。

3.论超弦DB诞生的必然过程

现在:专库专用是当下的主流场景

  1. 专库专用ROI最高:凡是拥有线上环境的厂家均会支持专库专用,所以毫无疑问,专库专用是当下线上的主流场景,一专多能用仅是可选项

  2. 客户天然排斥多源异构场景:排除互联网这种以软件为主的新兴行业,大部分传统行业的IT技术人员是严重缺失的,所以严格控制技术栈的扩展才是用户的主流思想,一个场景一个数据库才是最符合性价比场景的。

  3. 收敛技术栈才是主流:当前各行业的各类主流软件产品,特别是2010年之前的早期产品,一个产品一个库才是主流架构。

趋势:一专多能是行业发展趋势

  1. 商务瓶颈促使横向发展:当下数据库提供商均开始支持一专多能,更多的原因是不论传统关系型数据库还是MongoDB这种NoSQL的主流数据库产品,垂直发展从技术到市场均遭遇瓶颈,所以必须横向发展来开拓市场客户

  2. 客户场景促使多模产生:TOP数据库厂商在非结构化场景中无法友好支撑客户使用,越来越多的客户提出了类似诉求,即便不能完全对齐专业产品,但是在传统领域要求不高的情况,一专多能也是扩展产品生态的好选择,就跟以前数据库厂商也提供ETL,Report,多维分析套件一样,是客户需求推动的必然。

未来:公有云 & AI 推动场景多元化发展,但过程漫长

  1. 公有云促进多模发展:公有云的全面普及,使得数据库,特别是开源NoSQL数据库的使用成本得到极大降低,但是一个业务场景下多种数据库的使用目前仍然缺乏核心场景推动,所以多元化数据场景在软件项目架构中依然是被严格限制的,仅在部分场景下采用1主2辅的方式进行设计,例如:事务数据存关系,大规模集采存NoSQL,再辅以缓存提速。

  2. AIGC产生核心场景:随着数据化转型的深化改革,再加上AI智能化时代的冲击,多元化场景已经迎来爆发前期,随着AI商业化的落地与成功,未来一专多能,甚至多维融合数据库场景是时代发展的必然趋势。

  3. 两种形态长期存在:数据库作为基础软件,是所有软件中周期最长的产品,未来多元化发展依然是一个长期过程。

4.论超弦DB诞生的可行路径

基于上文三条路径进行说明:

  • 方案2:多为传统领先产品基于自身业务诉求进行的横向扩展,在主流产品的覆盖下,新模型的纳入可以做到高度集成化使用,但是普遍存在多模态下的性能和集成问题,所以该方案在当前新兴的数据库产品中已经不是首选

  • 方案3:近年来,学术界已经就多模形态的数据库实现方案进行了理论论证,在多模的实现上存在单一集成的多模型数据库系统多个单模型数据存储上的紧密集成中间件,两种实现方案第一种方案在方案2 中已经进行了说明,方案3目前实现形态尚不统一,Lindorm,CosmosDB,作为早期产品并没有获得较大市场认可,YMatrix尚处于商业化产品初期阶段还需观察,不过总体来看他跟PG的思路更相似。

总的来说方案2/3 均可实现最终目标(理论上用PG也行的),只是方案2更适合传统厂家,方案3更适合新兴厂家。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值