B树

B树是为磁盘或其他直接存取的辅助存取设备而设计的一种多叉平衡搜索树,类似于红黑树,但B树在降低磁盘I/O操作方面要更好一些。许多数据库系统使用B树或B树的变种来存储信息。
我们知道,磁盘I/O是很慢的,因为要涉及到磁头寻道、定址和数据读取时间。寻道是一种机械运动,速度自然慢;定址的平均时间是磁盘旋转周期的一半,目前主流磁盘旋转速度是5400RPM,快一点的也是7200RPM,尽管如此,旋转一圈需要8.33ms,比内存存取时间的50ns要高出5个数量级。所以综合来说,磁盘I/O与主存I/O的差距在6~8个数量级之间。
因此我们需要尽可能的减少磁盘I/O的次数。这时候B树就出现了。一颗B树T是具有以下性质的有根树:

  1. 每个节点x具有下面属性:
    1. x.n 当前存储在节点x中关键字的个数;
    2. x.n个关键字本身x.key1,x.key2…x.keyx.n,以非降序存放,使得x.key1<=x.key2<=…<=x.keyx.n
    3. x.leaf,一个bool值,如果x是叶子节点,则为true,否则为false;
  2. 每个内部节点x还包含x.n+1个指向其孩子的指针;
  3. 关键字x.keyi对存储在各子树中的关键字范围加以分割;
  4. 每个叶子节点具有相同的深度,即树的高度h。
  5. 每个节点所包含的关键字个数有上界和下界,其中下界>=2。

因为B树具有以上这些性质,所有尽管B树的基本操作和红黑树一样也是对数量级的,但B树中对数的底可能很大,这就使得B树的高度很低。如果我们令B树的根节点存储在主存上,那么对于一个高度为3,每个节点有1000个关键字的B树,最多只需要在磁盘上查找2次。而这棵树可以存储的信息达到10003=十亿个!正因为此,B树特别适合用来做磁盘I/O。

本文首发于www.sbrave.cn

【完】

### B数据结构和实现 B是一种自平衡的搜索,广泛应用于数据库和文件系统中。其设计目的是为了减少磁盘访问次数,提高数据检索效率。B的每个节点可以包含多个关键字和子节点指针,且所有叶子节点位于同一层。 #### 1. B的基本定义 B由节点组成,每个节点包含一组关键字和一组子节点指针。对于一个最小度数为 \(t\) 的B,有以下特性[^2]: - 每个节点最多包含 \(2t-1\) 个关键字。 - 根节点至少包含一个关键字。 - 非根节点至少包含 \(t-1\) 个关键字。 - 如果某个节点是非叶子节点,则它包含 \(n\) 个关键字和 \(n+1\) 个子节点指针,其中 \(t \leq n \leq 2t-1\)。 - 所有叶子节点都在同一层。 #### 2. B节点的结构 在代码实现中,B的节点通常定义如下[^2]: ```c typedef int KEY_VALUE; typedef struct _btree_node { KEY_VALUE *keys; // 关键字数组 struct _btree_node **childrens; // 子节点指针数组 int num; // 当前节点的关键字数量 int leaf; // 是否为叶子节点 } btree_node; ``` #### 3. B的操作 B的主要操作包括插入、删除和查找。以下是这些操作的基本描述: ##### (1) 插入操作 当向B中插入一个新关键字时,可能需要分裂节点以保持的平衡。具体步骤如下: - 如果根节点满,则创建一个新的根节点,并将原根节点作为其子节点。 - 自顶向下查找合适的位置插入关键字。 - 如果某节点已满,则将其分裂为两个节点,并将中间关键字上移至父节点。 ##### (2) 删除操作 删除关键字时,可能需要合并或重新分配节点中的关键字以保持的平衡。具体步骤如下: - 查找待删除的关键字。 - 如果关键字存在于非叶子节点,则用其前驱或后继替换该关键字。 - 如果删除导致某节点的关键字数量低于下限,则从兄弟节点借关键字,或与兄弟节点合并。 ##### (3) 查找操作 查找操作通过比较关键字和节点中的值,逐步缩小搜索范围。具体步骤如下: - 从根节点开始,逐层向下查找。 - 在当前节点中查找目标关键字,如果找到则返回;否则进入相应的子节点继续查找。 #### 4. 示例代码 以下是一个简单的B插入操作的伪代码示例: ```c void btree_insert_nonfull(btree_node *node, KEY_VALUE key) { int i = node->num - 1; if (node->leaf) { // 如果是叶子节点 while (i >= 0 && node->keys[i] > key) { node->keys[i + 1] = node->keys[i]; i--; } node->keys[i + 1] = key; node->num++; } else { // 如果是非叶子节点 while (i >= 0 && node->keys[i] > key) { i--; } i++; if (node->childrens[i]->num == 2 * t - 1) { // 如果子节点已满 split_child(node, i); if (key > node->keys[i]) { i++; } } btree_insert_nonfull(node->childrens[i], key); } } ``` #### 5. B与B+的对比 尽管B功能强大,但在实际应用中,B+更为常用。B+对B进行了优化,主要改进点包括[^1]: - 所有关键字都存储在叶子节点中,便于范围查询。 - 叶子节点之间通过链表连接,支持顺序访问。 - 非叶子节点仅用于索引,不存储实际数据。 ### 总结 B是一种高效的多路平衡搜索,适用于大规模数据存储和检索场景。其核心在于通过节点分裂和合并保持的平衡性,从而确保操作的时间复杂度为 \(O(\log n)\)。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值