b树，b+树，红黑树

最新推荐文章于 2025-05-14 08:39:03 发布

张超帅

最新推荐文章于 2025-05-14 08:39:03 发布

阅读量528

点赞数

CC 4.0 BY-SA版权

分类专栏：数据结构文章标签： io 磁盘算法

本文链接：https://blog.youkuaiyun.com/weixin_38070406/article/details/78213719

数据结构专栏收录该内容

23 篇文章

订阅专栏

B树的设计目的：

b树是一种平衡的多路查找树。B树是为了磁盘或其它存储设备而设计的一种多叉平衡查找树
B-树上算法的执行时间主要由读、写磁盘的次数来决定，故一次I/O操作应读写尽可能多的信息。因此B-树的结点规模一般以一个磁盘页为单位。一个结点包含的关键字及其孩子个数取决于磁盘页的大小。

性质：

一个m阶（一个节点有m个元素称为m阶）的B树具有如下性质：
树中每个结点至多有m个孩子。
除根结点和叶子结点外，其它每个结点至少有[m/2]个孩子。[]表示不小于m/2的最小整数。
根结点至少有2个孩子（如果B树只有一个结点除外）。
所有叶结点在同一层，B树的叶结点可以看成一种外部节点，不包含任何信息。

有k个关键字(关键字按递增次序排列)的非叶结点恰好有k+1个孩子。

比如，一棵3阶B-树，m=3。它满足：
（1）每个结点的孩子个数小于等于3。
（2）除根结点外，其他结点至少有=2即（[3/2]）个孩子。
（3）根结点有两个孩子结点。
（4）除根结点外的所有结点的n大于等于=1，小于等于2。
（5）所有叶结点都在同一层上。
这里写图片描述

1、B-树的查找

B-树的查找过程：根据给定值查找结点和在结点的关键字中进行查找交叉进行。首先从根结点开始重复如下过程：

若比结点的第一个关键字小，则查找在该结点第一个指针指向的结点进行；若等于结点中某个关键字，则查找成功；若在两个关键字之间，则查找在它们之间的指针指向的结点进行；若比该结点所有关键字大，则查找在该结点最后一个指针指向的结点进行；若查找已经到达某个叶结点，则说明给定值对应的数据记录不存在，查找失败。

B-树的插入

插入的过程分两步完成：

（1）利用前述的B-树的查找算法查找关键字的插入位置。若找到，则说明该关键字已经存在，直接返回。否则查找操作必失败于某个最低层的非终端结点上。

（2）判断该结点是否还有空位置。即判断该结点的关键字总数是否满足n<=m-1。若满足，则说明该结点还有空位置，直接把关键字k插入到该结点的合适位置上。若不满足，说明该结点己没有空位置，需要把结点分裂成两个。

分裂的方法是：生成一新结点。把原结点上的关键字和k按升序排序后，从中间位置把关键字（不包括中间位置的关键字）分成两部分。左部分所含关键字放在旧结点中，右部分所含关键字放在新结点中，中间位置的关键字连同新结点的存储位置插入到父结点中。如果父结点的关键字个数也超过（m-1），则要再分裂，再往上插。直至这个过程传到根结点为止。
这里写图片描述

B树的存储结构

struct B_TNode{
    int numOfKey;//关键字个数
    B_TNode *parent;//指向父结点的指针
    B_TNode **childPtr;//指向子树的指针，childPtr[0]...childPtr[numOfKey]
    int *key;//指向关键字数组的指针
};

在有限内存的情况下，每一次磁盘的访问我们都可以获得最大数量的数据。由于B树每结点可以具有比二叉树多得多的元素，所以与二叉树的操作不同，它们减少了必须访问结点和数据块的数量，从而提高了性能。
可以说，B树的数据结构就是为内外存的数据交互准备的。

在一个典型的B树应用中，要处理的硬盘数据量很大，因此无法一次全部装入内存。因此我们会对B树进行调整，使得B树的阶数（或结点的元素）与硬盘存储的页面大小相匹配。比如一棵B树的阶为1001（级一个结点包含1000个关键字），高度为2，它可以存储超过10亿个关键字，我们只要让根结点持久地保留在内存中，那么在这棵树上，寻找某一个关键字至多需要两次硬盘的读取即可。

B树的缺陷：
在B树中，当我们通过中序遍历来顺序查找树中的元素，假设每个结点都属于硬盘的不同页面，页面2-页面1-页面3-页面1-页面4-页面1-页面5。而且我们每次经过结点遍历时，都会对结点中的元素进行一次遍历，这就非常糟糕。
有没有可能让遍历时每个元素只访问一次呢？
这就是B+树。

B+树

B+ 树是一种树数据结构，是一个n叉排序树，每个节点通常有多个孩子，一棵B+树包含根节点、内部节点和叶子节点。根节点可能是一个叶子节点，也可能是一个包含两个或两个以上孩子节点的节点。

有n棵子树的结点中包含n个关键字
所有的叶子结点包含全部的关键字信息，及指向含这些关键字记录的指针，叶子结点本身依关键字的大小自小而大顺序链接。

这样的数据结构最大的好处就在于，如果是要随机查找，我们就从根结点出发，与B树的查找方式相同，只不过即使在分支结点找到了待查找的关键字，它也只是用来索引的，不能提供实际记录的访问，还是需要到达包含此关键字的终端结点。

如果我们是需要从最小关键字进行从小到大的顺序查找，我们就可以从最左侧的叶子结点出发，不经过分支结点，而是沿着指向下一个叶子的指针就可遍历所有的关键字。

B+树的结构特别适合带有范围的查找，比如查找我们学校18-22岁的学生人数，我们可以通过从根结点出发找到第一个18岁的学生，然后再在叶子结点按顺序查找到符合范围的所有记录。

B+树的插入，删除过程也都和B树类似，只不过插入和删除的元素都是在叶子结点上进行而已。