数据库HTAP概念新解读,一定和你知道的不一样

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题,有需求都可以加群群内有各大数据库行业大咖,可以解决你的问题。加群请联系 liuaustin3 ,(共3300人左右 1 + 2 + 3 + 4 +5 + 6 + 7 + 8 +9)(1 2 3 4 5 6 7群均已爆满,开8群近400 9群 200+,开10群PolarDB专业学习群100+)

相信关注此号的人,且加群的人,知道一件事,每天早晨,德哥的公众号都会准时推出AI的文章,每天我都转。近朱者赤,近墨者黑,这么长时间了,我也应该要红点。

所以今天我把前两天会上蹭德哥的知识,来验证一下,看看对不对,我如果记得没有错,问题是如何提高混合搜索的能力,提高混合搜索的性能的问题。研究后我的出了HTAP的新概念,HTAP 有了全新的定义,和原先的定义毫无关系。

HTAP = Hybridized Targeting and Approximation Pipleline

下面我们就一步步推到出新概念的来由,在混合搜索中,两种搜索的方式并不能一次进行处理,混合搜索的慢的关键是,至少在搜索中会产生两次搜索:

一次是普通的查询,如我们的普通查询属于标量查询,而我们的AI查询是语义查询,属于向量查询,属于将数据嵌入到向量中,通过相似度量来进行匹配查找。所以现在的AI查询的大模型大多是基于语义查询服务的。

但基于混合查询中需要将两种查询进行混合处理如BM25算法,这样的算法同时支持语义查询和关键字匹配的数据查询法。

可能有同学问,向量就向量查询,标量就标量查询,为什么要混合,个人查个人的不就行了。

我们假设你要查询一个数据,问题是这样,请查询到身穿红色衣服的,美丽的,衣服上写着25数字的女性。这里在查询中,就是一个标量和矢量混合的查询,25那个数字是一个确定的标量需要与查询的文档进行匹配,是一个精确的值,有严格的要求。

而这就产生我们上面提到的问题,标量和向量的搜索在一起,是一次查询,还是两次查询,目前的通用模式是两次查询,也就是我先查一遍标量,再查一遍矢量,然后合并结果处理结果,展现结果。

步骤

执行流程(存在问题的方式)

存在的问题

阶段 1

🏷️ 标量/属性过滤算子执行

* 执行标量查询和过滤。

-

⬇️ 结果集传输

* 将符合标量条件的 DocID 列表(或稀疏结果集)传递给下一阶段。

阶段 2

🔍 向量相似度搜索算子执行

* 接收 DocID 列表,执行向量搜索。

-

⬇️ 结果集传输

* 将符合向量条件的 DocID 列表相似度分数传递给下一阶段.

阶段 3

⚖️ 结果合并/重排序算子

* 对两个结果集进行 RRF 或其他融合算法处理,进行最终排序

-

⬇️ 最终结果

* 返回给用户。

所以结论是,现在矢量和标量的查询是一个串行的工作,一个做完在做一个。

而现在分层式混合索引(Hierarchical Hybrid Index)将查询分层处理

+-----------------------------------------------------------+

|                    Merge Layer (Global)                  |

|   -> Global Top-K Aggregation (distance + scalar weight) |

+-----------------------------------------------------------+

|                    Query Layer (Dispatch)                |

|   -> Node Selection via Vector Centroid Tree             |

|   -> Parallel Local Queries Execution                    |

+-----------------------------------------------------------+

|               Coordinator Layer (Control Plane)          |

|   -> Global Vector Centroid Index                        |

|   -> Node Statistics & Routing Metadata                  |

+-----------------------------------------------------------+

|                    Node Layer (Local Index)              |

|   -> Local Hybrid Index (B-tree + HNSW / IVF)            |

|   -> Local Top-K Search                                  |

+-----------------------------------------------------------+

关键的地方是

HybridIndex = {

scalar_index: B-tree / Bitmap Index,

vector_index: HNSW / IVF-PQ / Flat Index,

routing_key: partition_key

}

这里先通过标量也就是我们熟悉的 B-TREE 快速定位到需要进行数据过滤的行,然后通过向量将需要处理的行进行向量计算,最后融合算子,通过权重的函数来得出最接正确的结果。

而更关键的是中间的两层,协调层和查询蹭,协调蹭相当于路由,将需要进行查询的节点找到,然后通过查询层,将标量和向量查询发送的数据存在的节点。

最后是合并层,将数据查询完毕后的结果通过综合的评分,去重,以及排序将结果返回给查询方。

所以我们之前提出的,HTAP是 OLAP+OLTP,而我理解的HTAP是 TP是上面负责进行标量查询的部分,AP是负责向量查询的部分,这个HTAP赋予了新的定义。

HTAP = Hybridized Targeting and Approximation Pipleline

中文的意思是,结构化向量查询一体化

Hybridized Targeting and Approximation Pipleline

这就是近朱者赤,近墨者黑,我今天还挺红!

置顶

“一顿海鲜引发”(3)一分钟定位数据库问题,试用得京东卡和礼物!

Oracle 26i 的一个功能演进后,云厂商利用会不会造出千年老妖样的“数据库”

“一顿海鲜引发”(2)“运维工具与DBA之间不打不相识”

“一顿海鲜引发”(1):DBA、架构师与数据库运维工具的爱恨情仇

DBA 从“修电脑的” 到 上演一套 “数据治理” 大戏 ---  维护DBA生存空间,体现个体价值

Oracle 也有做失败的数据库系统?是的今天我们来说说他

老板说 MongoDB 测试环境这么贵,弄单机? 开发说要复制集测试? 你们这群XXX!!

国庆节2号 PostgreSQL 停机罢工 协助 解决问题得 66.66元的红包

外媒评论区疯狂了,开发人员各种观点---北美AI替换程序员引发境外程序员业界震动

MySQL 8 的老大难问题,从5.7延续至今,这个问题有这么难?

体育生误入 DBA 行业,后悔了,问换哪行?

一篇为MySQL用户,分析版本核心差异的文章--8.028-8.4的差异

云上DBA是诸葛亮,云下的DBA是 关云长,此话怎讲? 4点变化直击要害

外国专家说PG 18 AI能力不行,到底行不行?

MongoDB 开始接客户应用系统 AI 改造的活了--OMG 这世界太疯狂

一篇将PostgreSQL 日志问题说的非常详细附带分析解决方案的文章  (翻译)

DBA 与 AI 斗智斗勇的一天,谁是麦当劳,谁是星巴克

科技改变生活,阿里云DAS  AI改变了什么

企业DBA 应该没听说过 Supabase,因为他不单纯 !!

Oracle 推出原生支持 Oracle 数据库的 MCP 服务器,助力企业构建智能代理应用

PolarDB MySQL SQL 优化指南 (SQL优化系列 5)

开发欺负我 Redis  的大 keys的问题,我一个DBA怎么解决?

IF-Club 你提意见拿礼物 AustinDatabases 破 10000

开发欺负我 Redis  的大 keys的问题,我一个DBA怎么解决?

云基座技术是大厂专有,那小厂和私有云的出路在哪里?

OceanBase 相关文章

某数据库下的一手好棋!共享存储落子了!

OceanBase 光速快递 OB Cloud “MySQL” 给我,Thanks a lot

和架构师沟通那种“一坨”的系统,推荐只能是OceanBase,Why ?

OceanBase Hybrid search 能力测试,平换MySQL的好选择

某数据库下的一手好棋!共享存储落子了!

写了3750万字的我,在2000字的OB白皮书上了一课--记 《OceanBase 社区版在泛互场景的应用案例研究

OceanBase 单机版可以大批量快速部署吗? YES

OceanBase 6大学习法--OBCA视频学习总结第六章

OceanBase 6大学习法--OBCA视频学习总结第五章--索引与表设计

OceanBase 6大学习法--OBCA视频学习总结第五章--开发与库表设计

OceanBase 6大学习法--OBCA视频学习总结第四章 --数据库安装

OceanBase 6大学习法--OBCA视频学习总结第三章--数据库引擎

OceanBase 架构学习--OB上手视频学习总结第二章 (OBCA)

OceanBase 6大学习法--OB上手视频学习总结第一章

没有谁是垮掉的一代--记 第四届 OceanBase 数据库大赛

OceanBase  送祝福活动,礼物和幸运带给您

跟我学OceanBase4.0 --阅读白皮书 (OB分布式优化哪里了提高了速度)

跟我学OceanBase4.0 --阅读白皮书 (4.0优化的核心点是什么)

跟我学OceanBase4.0 --阅读白皮书 (0.5-4.0的架构与之前架构特点)

跟我学OceanBase4.0 --阅读白皮书 (旧的概念害死人呀,更新知识和理念)

聚焦SaaS类企业数据库选型(技术、成本、合规、地缘政治)

OceanBase 学习记录-- 建立MySQL租户,像用MySQL一样使用OB

“合体吧兄弟们!”——从浪浪山小妖怪看OceanBase国产芯片优化《OceanBase “重如尘埃”之歌》

         MongoDB 相关文章

MongoDB “升级项目” 大型连续剧(4)-- 与开发和架构沟通与扫尾

MongoDB “升级项目” 大型连续剧(3)-- 自动校对代码与注意事项

MongoDB “升级项目” 大型连续剧(2)-- 到底谁是"der"

MongoDB “升级项目”  大型连续剧(1)-- 可“生”可不升

MongoDB  大俗大雅,上来问分片真三俗 -- 4 分什么分

MongoDB 大俗大雅,高端知识讲“庸俗” --3 奇葩数据更新方法

MongoDB 学习建模与设计思路--统计数据更新案例

MongoDB  大俗大雅,高端的知识讲“通俗” -- 2 嵌套和引用

MongoDB  大俗大雅,高端的知识讲“低俗” -- 1 什么叫多模

MongoDB 合作考试报销活动 贴附属,MongoDB基础知识速通

MongoDB 年底活动,免费考试名额 7个公众号获得

MongoDB 使用网上妙招,直接DOWN机---清理表碎片导致的灾祸 (送书活动结束)

MongoDB 2023年度纽约 MongoDB 年度大会话题 -- MongoDB 数据模式与建模

MongoDB  双机热备那篇文章是  “毒”

MongoDB   会丢数据吗?在次补刀MongoDB  双机热备

MONGODB  ---- Austindatabases  历年文章合集

MongoDB 麻烦专业点,不懂可以问,别这么用行吗 ! --TTL

PolarDB 已经开放的课程

PolarDB 非官方课程第八节--数据库弹性弹出一片未来--结课

PolarDB 非官方课程第七节--数据备份还原瞬间完成是怎么做到的--答题领奖品

PolarDB 非官方课程第六节--数据库归档还能这么玩--答题领奖品

PolarDB 非官方课程第五节--PolarDB代理很重要吗?--答题领奖品

PolarDB 非官方课程第四节--PG实时物化视图与行列数据整合处理--答题领奖品

PolarDB 非官方课程第三节--MySQL+IMCI=性能怪兽--答题领奖品

PolarDB 非官方课程第二节--云原生架构与特有功能---答题领奖品

PolarDB 非官方课程第一节-- 用户角度怎么看PolarDB --答题领奖品

免费PolarDB云原生课程,听课“争”礼品,重塑云上知识,提高专业能力

PolarDB 相关文章

P-MySQL SQL优化案例,反观MySQL不死没有天理

非“厂商广告”的PolarDB课程:用户共创的新式学习范本--7位同学获奖PolarDB学习之星

“当复杂的SQL不再需要特别的优化”,邪修研究PolarDB for PG 列式索引加速复杂SQL运行

数据压缩60%让“PostgreSQL” SQL运行更快,这不科学呀?

这个 PostgreSQL 让我有资本找老板要 鸡腿 鸭腿 !!

用MySQL 分区表脑子有水!从实例,业务,开发角度分析 PolarDB 使用不会像MySQL那么Low

P-MySQL SQL优化案例,反观MySQL不死没有天理

MySQL 和 PostgreSQL 可以一起快速发展,提供更多的功能?

这个MySQL说“云上自建的MySQL”都是”小垃圾“

        PolarDB MySQL 加索引卡主的整体解决方案

“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!

PostgreSQL 的搅局者问世了,杀过来了!

在被厂商围剿的DBA 求生之路 --我是老油条

POLARDB  添加字段 “卡” 住---这锅Polar不背

PolarDB 版本差异分析--外人不知道的秘密(谁是绵羊,谁是怪兽)

在被厂商围剿的DBA 求生之路 --我是老油条

PolarDB 答题拿-- 飞刀总的书、同款卫衣、T恤,来自杭州的Package(活动结束了)

PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火

PostgreSQL 相关文章

PostgreSQL 新版本就一定好--由培训现象让我做的实验

 说我PG Freezing Boom 讲的一般的那个同学,专帖给你,看看这次可满意

邦邦硬的PostgreSQL技术干货来了,怎么动态扩展PG内存 !

3种方式 PG大版本升级  接锅,背锅,不甩锅  以客户为中心做产品

"PostgreSQL" 不重启机器就能调整 shared buffer pool  的原理

说我PG Freezing Boom 讲的一般的那个同学专帖给你看这次可满意

一个IP地址访问两个PG实例,上演“一女嫁二夫”的戏码

PostgreSQL  Hybrid能力岂非“小趴菜”数据库可比 ?

PostgreSQL 新版本就一定好--由培训现象让我做的实验

PostgreSQL “乱弹” 从索引性能到开发优化

PostgreSQL  无服务 Neon and Aurora 新技术下的新经济模式 (翻译)

PostgreSQL的"犄角旮旯"的参数捋一捋

PostgreSQL逻辑复制槽功能

PostgreSQL 扫盲贴 常用的监控分析脚本

“PostgreSQL” 高性能主从强一致读写分离,我行,你没戏!

PostgreSQL  添加索引导致崩溃,参数调整需谨慎--文档未必完全覆盖场景

PostgreSQL 的搅局者问世了,杀过来了!

PostgreSQL SQL优化用兵法,优化后提高 140倍速度

PostgreSQL 运维的难与“难”  --上海PG大会主题记录

PostgreSQL 什么都能存,什么都能塞 --- 你能成熟一点吗?

PostgreSQL 迁移用户很简单 ---  我看你的好戏

PostgreSQL 用户胡作非为只能受着 --- 警告他

全世界都在“搞” PostgreSQL ,从Oracle 得到一个“馊主意”开始
PostgreSQL 加索引系统OOM 怨我了--- 不怨你怨谁

PostgreSQL “我怎么就连个数据库都不会建?” --- 你还真不会!

病毒攻击PostgreSQL暴力破解系统,防范加固系统方案(内附分析日志脚本)

PostgreSQL 远程管理越来越简单,6个自动化脚本开胃菜

PostgreSQL 稳定性平台 PG中文社区大会--杭州来去匆匆

PostgreSQL 如何通过工具来分析PG 内存泄露

PostgreSQL  分组查询可以不进行全表扫描吗?速度提高上千倍?

POSTGRESQL --Austindatabaes 历年文章整理

PostgreSQL  查询语句开发写不好是必然,不是PG的锅

PostgreSQL  字符集乌龙导致数据查询排序的问题,与 MySQL 稳定 "PG不稳定"

PostgreSQL  Patroni 3.0 新功能规划 2023年 纽约PG 大会 (音译)

PostgreSQL   玩PG我们是认真的,vacuum 稳定性平台我们有了

PostgreSQL DBA硬扛 垃圾 “开发”,“架构师”,滥用PG 你们滚出 !(附送定期清理连接脚本)

DBA 失职导致 PostgreSQL 日志疯涨

     这个 PostgreSQL 让我有资本找老板要 鸡腿 鸭腿 !!

一个IP地址访问两个PG实例,上演“一女嫁二夫”的戏码

PostgreSQL “乱弹” 从索引性能到开发优化

MySQL相关文章

一篇为MySQL用户,分析版本核心差异的文章--8.028-8.4的差异

那个MySQL大事务比你稳定,主从延迟低,为什么? Look my eyes! 因为宋利兵宋老师

MySQL 条件下推与排序优化实例--MySQL8.035

青春的记忆,MySQL 30年感谢有你,再见!(译)

MySQL 8 SQL 优化两则 ---常见问题

MySQL SQL优化快速定位案例 与 优化思维导图

"DBA 是个der" 吵出MySQL主键问题多种解决方案

MySQL 怎么让自己更高级---从内存表说到了开发方式

MySQL timeout 参数可以让事务不完全回滚

MySQL 让你还用5.7 出事了吧,用着用着5.7崩了

MySQL 的SQL引擎很差吗?由一个同学提出问题引出的实验

用MySql不是MySQL, 不用MySQL都是MySQL 横批 哼哼哈哈啊啊

MYSQL  --Austindatabases 历年文章合集

超强外挂让MySQL再次兴盛,国内神秘组织拯救MySQL行动

MySQL 条件下推与排序优化实例--MySQL8.035

临时工访谈系列

没有谁是垮掉的一代--记 第四届 OceanBase 数据库大赛

ETL 行业也够卷,云化ETL,ETL 软件不过了

SQL SERVER 系列

       沧海要,《SQL SERVER 运维之道》,清风笑,竟惹寂寥

SQL SERVER维保AI化,从一段小故事开始

SQL SERVER 如何实现UNDO REDO 和PostgreSQL 有近亲关系吗

SQL SERVER 危险中,标题不让发,进入看详情(译)

未知黑客通过SQL SERVER 窃取企业SAP核心数据,影响企业运营

数据库优化系列

MongoDB 查询 优化指南  四句真言 (查询 优化系列 4)

MySQL SQL 优化指南 SQL 四句真言(优化系列 3)

SQL SERVER SQL 优化指南  四句真言 (SQL 优化系列 2)

PostgreSQL SQL 优化指南 四句真言(SQL 优化系列 1)

杂谈

从 Universal 环球影城 到 国产数据库产品 营销 --驴唇对马嘴

AI 很聪明,但就怕脑子失忆,记忆对AI很重要

从某数据库信任“危机”,简谈危机公关

数据库信创话题能碰吗? 今天斗胆说说

企业出海数据库设计问题一角,与政策动荡下的全球数据库产品

计问题一角,与政策动荡下的全球数据库产品

《数据库江湖邪修门派:心法五式全解》

微软动手了,联合OpenAI + Azure 云争夺AI服务市场

企业出海“DB”要合规,要不挣那点钱都不够赔的

     短评 国产数据库营销市场 “问题”

     DBA被瞧不起 你有什么建议? Drive Fast !

HyBrid Search 实现价值落地,从真实企业的需求角度分析 !不只谈技术!

从“小偷”开始,不会从“强盗”结束 -- IvorySQL 2025 PostgreSQL 生态大会

被骂后的文字--技术人不脱离思维困局,终局是个 “死” ? ! ......

个群2025上半年总结,OB、PolarDB, DBdoctor、爱可生、pigsty、osyun、工作岗位等

卷呀卷,Hybrid 混合查询学习--哪个库是小趴菜

从MySQL不行了,到乙方DBA 给狗,狗都不干? 我干呀!

DBA 干不好容易蹲牢房--这事你知道吗?

SQL SERVER 2025发布了, China幸亏有信创!

云数据库厂商除了卷技术,下一个阶段还可以卷什么?

删除数据“八扇屏” 之 锦门英豪  --我去-BigData!

写了3750万字的我,在2000字的OB白皮书上了一课--记 《OceanBase 社区版在泛互场景的应用案例研究》

SQLSHIFT 是爱可生对OB的雪中送炭!

青春的记忆,MySQL 30年感谢有你,再见!(译)

老实人做的数据库产品,好像也不“老实” !

疯狂老DBA 和 年轻“网红” 程序员 --火星撞地球-- 谁也不是怂货  

哈呀站,OB广州开发者大会 之 “五” 眼联盟

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值