简介
B+树是应文件系统所需而产生的B树的变形树,那么可能一定会想到,既然有了B树,又出一个B+树,那B+树必然是有很多优点的,其中最重要的一点就是有者比B-tree更高的查询性能
B+树的特征
和B-树相比较,具备一些新的特征:
- 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个中间节点元素不保存数据,只用来索引,所有数据都保存在叶子节点(这样每个中间节点能存储更多的索引,从而减少磁盘IO数量,B+树相比与B-树更加矮胖);
- 所有的叶子结点中包含了全部元素的信息,及指向含有这些元素记录的指针,且叶子结点本身依元素的大小自小而大的顺序链接。 (而B树的叶子节点并没有包括全部需要查找的信息);
- 所有的中间节点元素都同时存在于子结点中,在子节点元素中是最大(或最小)的元素。(而B 树的非叶子节点也包含需要查找的有效信息);
3阶B+树示例:
说明:
- 每一个父节点的元素都出现在子节点中,是子节点的最大(或最小)元素
- 根节点的最大元素(这里是15).也就等同于等个B+树的最大元素。以后无论插入删除多好元素,始终要保持最大元素在根节点中。
- 由于父节点的元素都出现在子节点中,因此所有叶子节点加在一起包含了全量的元素信息。
- 而且每一个叶子节点都带有指向下一个叶子节点的指针(在上图中用叶子节点间的箭头表示),形成了一个有序链表(便于直接遍历全部元素)
- B+树中只有叶子节点有卫星数据(指的是索引元素所指向的数据记录,比如数据库中的某一行),而在B-树中,无论叶子节点还是非叶子节点都带有卫星数据,如下图
B-树中的卫星数据(Satellite Information):
B+树中的卫星数据(Satellite Information):
需要补充的是,在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。
单行查询
以3阶B+树查找元素3为例:
第一次磁盘IO:
。。。
第三次磁盘IO:
相比于B-树:
- 查询效率更高:因为B+树的中间节点没有卫星数据,只有索引,所有同样大小的磁盘页可以容纳更多的节点元素,故查询时磁盘IO次数会更少。从结构上,B+树比B-树更加矮胖。
- 查询效率更稳定:B+树的查询必循最终查找到叶子节点,而B-树只要找到匹配元素即可,无论匹配元素处于中间节点还是叶子节点。因此B-树的查找性能并不稳定(最好根节点,最坏叶子节点),而B+树的每一次查找都是稳定的
范围查找
B-树的范围查找过程,只能依靠繁琐的中序遍历(左根右):
自顶向下,查找到范围的下限(3):
中序遍历到元素6:
中序遍历到元素8:
中序遍历到元素9:
中序遍历到元素11,遍历结束:
B+树的范围查询(在叶子节点组成的链表上做遍历即可):
自顶向下,查找到范围的下限(3):
通过链表指针,遍历到元素6, 8:
通过链表指针,遍历到元素9, 11,遍历结束:
总结
B+树相比于B-树的优势:
- 单一节点存储更多的元素,使得查询的IO次数更少。
- 所有查询都要查找到叶子节点,查询性能稳定。
- 所有叶子节点形成有序链表,便于范围查询。
以上三点优势也说明了B+树为什么比B树更适合做数据库索引:
1)B+树的磁盘读写代价更低
B+树的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B 树更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了;
2)B+树查询效率更加稳定
由于非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当;
3)B+树便于范围查询(最重要的原因,范围查找是数据库的常态)
B树在提高了IO性能的同时并没有解决元素遍历的我效率低下的问题,正是为了解决这个问题,B+树应用而生。B+树只需要去遍历叶子节点就可以实现整棵树的遍历。而且在数据库中基于范围的查询是非常频繁的,而B树不支持这样的操作或者说效率太低
参考:
什么是B+树
B树、B+树详解
数据库索引,终于懂了