对于现在互联网对数据库的操作,都是查询的使用比较多,虽说是使用了各种缓存技术来存储从数据看读取的数据,但是数据在不停地更新,还是要不停地查询数据库,但是在查询数据库的时候对于IO消耗特别大,所以能把查询的IO的操作次数降低,那对于数据库的性能提升是很明显的,因此B+ Tree就出现了
B+ Tree的数据结构
对于B+ Tree数据结构是由一个个磁盘组成,每个磁盘由数据和指针组成
查找过程
以磁盘块1为例,指针 P1 表示小于17的磁盘块,P2 表示在 17~35 之间的磁盘块,P3 则表示大于35的磁盘块。
比如要查找数据项99,首先将磁盘块1 load 到内存中,发生 1 次 IO。接着通过二分查找发现 99 大于 35,所以找到了 P3 指针。通过P3 指针发生第二次 IO 将磁盘块4加载到内存。再通过二分查找发现大于87,通过 P3 指针发生了第三次 IO 将磁盘块11 加载到内存。最后再通过一次二分查找找到了数据项99。
由此可见,如果一个几百万的数据查询只需要进行三次 IO 即可找到数据,那么整个效率将是非常高的。
观察树的结构,发现查询需要经历几次 IO 是由树的高度来决定的,而树的高度又由磁盘块,数据项的大小决定的。
磁盘块越大,数据项越小那么树的高度就越低。这也就是为什么索引字段要尽可能小的原因。