三篇文章了解 TiDB 技术内幕 - 说计算

最新推荐文章于 2025-08-01 19:08:53 发布

每天读点书学堂

最新推荐文章于 2025-08-01 19:08:53 发布

阅读量295

点赞数 1

CC 4.0 BY-SA版权

文章标签： tidb 数据库 sql rust

本文链接：https://blog.youkuaiyun.com/weixin_42241611/article/details/130036563

文章详细介绍了如何将关系数据库的表和索引映射到Key-Value存储中，特别是在TiDB系统中的实现。TiDB通过为每个表和索引分配唯一ID，并采用特定的Key编码规则，确保数据的存储和查询效率。此外，文章还讨论了SQL语句如何转换为对KV存储的操作，强调了分布式SQL运算的重要性，以减少网络传输和提高性能。SQL层的架构和功能也得到了概述，包括查询解析、优化和执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关系模型到 Key-Value 模型的映射

在这我们将关系模型简单理解为 Table 和 SQL 语句，那么问题变为如何在 KV 结构上保存 Table 以及如何在 KV 结构上运行 SQL 语句。假设我们有这样一个表的定义：

CREATE TABLE User {
    ID int,
    Name varchar(20),
    Role varchar(20),
    Age int,
    PRIMARY KEY (ID),
    Key idxAge (age)
};

SQL 和 KV 结构之间存在巨大的区别，那么如何能够方便高效地进行映射，就成为一个很重要的问题。一个好的映射方案必须有利于对数据操作的需求。那么我们先看一下对数据的操作有哪些需求，分别有哪些特点。

对于一个 Table 来说，需要存储的数据包括三部分：

表的元信息
Table 中的 Row
索引数据

表的元信息我们暂时不讨论，会有专门的章节来介绍。对于 Row，可以选择行存或者列存，这两种各有优缺点。TiDB 面向的首要目标是 OLTP 业务，这类业务需要支持快速地读取、保存、修改、删除一行数据，所以采用行存是比较合适的。

对于 Index，TiDB 不止需要支持 Primary Index，还需要支持 Secondary Index。Index 的作用的辅助查询，提升查询性能，以及保证某些 Constraint。查询的时候有两种模式，一种是点查，比如通过 Primary Key 或者 Unique Key 的等值条件进行查询，如 select name from user where id=1;，这种需要通过索引快速定位到某一行数据；另一种是 Range 查询，如 select name from user where age > 30 and age < 35;，这个时候需要通过idxAge索引查询 age 在 30 和 35 之间的那些数据。Index 还分为 Unique Index 和非 Unique Index，这两种都需要支持。

分析完需要存储的数据的特点，我们再看看对这些数据的操作需求，主要考虑 Insert/Update/Delete/Select 这四种语句。

对于 Insert 语句，需要将 Row 写入 KV，并且建立好索引数据。

对于 Update 语句，需要将 Row 更新的同时，更新索引数据（如果有必要）。

对于 Delete 语句，需要在删除 Row 的同时，将索引也删除。

上面三个语句处理起来都很简单。对于 Select 语句，情况会复杂一些。首先我们需要能够简单快速地读取一行数据，所以每个 Row 需要有一个 ID （显示或隐式的 ID）。其次可能会读取连续多行数据，比如 Select * from user;。最后还有通过索引读取数据的需求，对索引的使用可能是点查或者是范围查询。

大致的需求已经分析完了，现在让我们看看手里有什么可以用的：一个全局有序的分布式 Key-Value 引擎。全局有序这一点重要，可以帮助我们解