【KWDB 创作者计划】_技术解读（1）：KWDB 存储引擎原理与实现全解析

会飞的Anthony

已于 2025-04-18 20:04:29 修改

阅读量1k

点赞数 26

分类专栏：数据库云服务信息系统文章标签： KWDB 数据库

于 2025-04-09 14:00:00 首次发布

本文链接：https://blog.youkuaiyun.com/ljd939952281/article/details/147076389

版权

信息系统同时被 3 个专栏收录

263 篇文章

订阅专栏

云服务

19 篇文章

订阅专栏

数据库

18 篇文章

订阅专栏

在数据库系统中，存储引擎是最核心的底层组件，决定了一款数据库的性能上限与应用边界。KWDB 作为一款为 AIoT 场景量身定制的国产开源数据库，其存储引擎设计兼顾了“高并发写入、时序压缩、高效检索和分布式扩展”等多重需求。本篇将带你从技术视角出发，深入剖析 KWDB 存储引擎的设计思想与源码实现，并结合 KWDB 2.2.0 实际代码，展示其强大之处。

一、KWDB 的多模数据存储思路

传统数据库普遍按照“单一数据模型”构建，例如：

关系型数据库（如 MySQL）侧重结构化数据；
时序数据库（如 InfluxDB、TDengine）专注连续、高频时间序列；
文档数据库（如 MongoDB）面向非结构化 JSON 文档。

而 KWDB 支持“多模数据模型共存”，特别适合以下典型场景：

同一设备既有时序指标（如温度、湿度）也有静态属性（如设备型号、厂商）；
IoT 数据需要快速写入同时又支持复杂联表查询。

在底层，KWDB 存储引擎采取了“时序模型 + 关系模型并存、融合调度”的设计策略。

二、存储引擎核心模块结构

从源码角度看，KWDB 的存储引擎主要分为以下模块：

kwdb/
├── engine/          # 存储引擎实现目录
│   ├── tsstore/     # 时序数据的写入与存储
│   ├── kvstore/     # 键值结构底层引擎（封装RocksDB）
│   ├── planner/     # 查询执行计划生成
│   ├── reader/      # 查询读取器
│   ├── wal/         # 写前日志（Write-Ahead Log）
│   └── index/       # 倒排索引模块

我们重点关注以下几个核心机制：

1. 写前日志 WAL（Write-Ahead Log）

KWDB 采用了标准的 WAL 机制保证数据一致性与故障恢复。写入流程如下：

graph TD;
    A[用户写入数据] --> B[构造写入请求]
    B --> C[写入WAL日志]
    C --> D[缓存写入MemTable]
    D --> E[异步Flush落盘]

代码片段示例（伪简化）：

// engine/wal/wal_writer.cc
Status WalWriter::Append(const LogEntry& entry) {
    Encode(entry);
    file_.Append(encoded_entry);
    return Status::OK();
}

只要 WAL 成功写入，即使数据库进程崩溃，也能从日志恢复数据。

2. 列式压缩存储（Columnar Compression）

为了提升时序数据查询效率，KWDB 对大部分度量数据采用列式压缩：

利用时间戳递增的规律做 Delta Encoding
数值数据采用 Gorilla 编码 / LZ4 压缩
结合时间分区，实现冷热数据自动归档

实测压缩比通常能达到 1:10 ~ 1:20，显著降低存储占用。

3. 索引机制与混合查询调度

KWDB 支持如下三类索引：

类型	用途	示例
主键索引	唯一定位数据	`device_id + timestamp`
倒排索引	用于标签快速检索	`设备类型:温控器`
时间索引	加速区间查询	`time > now() - 1h`

联合查询调度示例（跨模）：

SELECT device_id, temperature, model
FROM ts_metrics
JOIN device_info ON ts_metrics.device_id = device_info.id
WHERE time > now() - interval '1 hour'
AND device_info.model = 'ABC-1000';

三、KWDB 写入流程详解

结合官方 Gitee 上 KWDB 2.2.0 的代码，我们可以大致梳理出以下写入链路：

客户端请求 → HTTP 接口层（API） → 数据解析 → 写前日志 WAL
→ 内存表 MemStore → 数据压缩 → 后台 Flush → SST 文件落盘
→ 数据归档至分区目录

性能关键点：

批写优化（batch write）
内存结构为多级 MemTable
定时合并压缩（Compaction）
冷热分区策略（自动落盘、冷存归档）

四、源码上手体验：Gitee 环境部署与阅读建议

1. 克隆项目

git clone https://gitee.com/opensourcekaiwu/kwdb.git
cd kwdb

2. 编译运行（建议容器部署）

docker-compose -f docker/docker-compose.yaml up -d

安装过程建议先阅读官方文档或后续我们实操文章。

3. 阅读引擎主干代码推荐路径：

engine/tsstore/ts_engine.cc — 写入路径入口
wal/wal_writer.cc — 日志写入逻辑
planner/query_planner.cc — 查询计划调度
kvstore/rocks_engine.cc — 实际落地后端存储

五、小结：KWDB 存储为何适配 AIoT 场景？

特性	AIoT 场景价值
高并发写入	百万设备秒级数据接入
多模结构支持	结构 + 时序统一存储
高压缩比	降低存储成本
分布式架构	边缘-云一体部署能力
查询调度优化	快速响应告警与可视化