深入理解MySql索引底层数据结构

本文深入解析数据库索引的概念,探讨不同数据结构如二叉树、红黑树、B-Tree和B+Tree在索引中的应用,以及它们各自的优缺点。通过实例说明,对比各种数据结构在数据查询效率上的表现,特别强调B+Tree作为MySql索引存储结构的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是索引?
索引实质上就是一种帮助我们快速查询数据的排好序的数据结构。
索引数据结构
二叉树
红黑树
hash表
B-Tree
假如有一组数据:32、27、42、22、45、29,按照全表逐行查找关键字29时,需要6次。那么我们用其他数据结构会怎么样呢?
二叉树,如下图所示:
在这里插入图片描述
如上图所示,利用二叉树进行快速查找,在查找关键字29时,只需要3次即可。
但是,如果是一组单边增长的数据用二叉树会怎么样呢?例如:10 、20 、30、 40、 50
在这里插入图片描述

上图所示,使用二叉树查找关键字50时需要5次,并没有提高查找效率。那么如果使用红黑树会怎么样呢?
在这里插入图片描述
查找关键字50需要3次,但是如果数据量多的话,依然需要查找很多次数。
在这里插入图片描述
上图数据量只有10个,但是红黑树的高度为5,需要做5次磁盘I/O,如果是成千上万的数据的话,那么树的高度就非常的高,I/O次数非常频繁,查询效率非常低,显然不适合用来做数据库索引的数据结构。
下面我们来看看B-Tree
在这里插入图片描述

查找关键字40的过程:
根据根节点找到磁盘块1,读入内存。(磁盘I/O操作第1次)
比较:关键字40>33,找到磁盘块1的指针P3。
根据P3指针找到磁盘块4,读入内存。(磁盘I/O操作第2次)
比较:关键字40<43,找到磁盘块4的指针P1。
根据P1指针找到磁盘块11,读入内存。【磁盘I/O操作第3次】
在磁盘块11中的元素列表中找到关键字40。
上面过程只需要3次I/O操作,3次内存查找,明显提高了查询效率。B-Tree相对于二叉树和红黑树缩减了节点个数,使每次磁盘I/O取到内存的数据都发挥了作用,从而提高了查询效率。
B-Tree的特点:
1.叶节点具有相同的深度,叶节点的指针为空。
2.所有索引元素不重复。
3.节点中的数据索引从左到右递增排列。
B+Tree(B-Tree的变种)
MySql索引的存储结构正是B+Tree。

在这里插入图片描述
如上图所示,不难发现B+Tree有下面这几个特点:
1.非叶子节点不存储data,只存储索引(冗余),可以存放更多的索引。
2.叶子节点包含所有的索引字段。
3.叶子结点用指针连接,提高区间访问的性能。
这也是B+Tree与B-Tree的区别所在。
hash
1.对索引的key进行一次hash计算就可以定位出数据存储的位置
2.很多时候Hash索引要比B+ 树索引更高效
3.仅能满足 “=”,“IN”,不支持范围查询如like、between、大于、小于等
4.hash冲突问题
使用B-Tree的好处
b树可以内部节点同时存储键和值,如果我们将频繁访问的数据放在靠近根节点的地方则会大大提高查询效率,这种特性使得B-Tree在特定数据重复多次查询的场景中更加高效。
使用B+Tree的好处
1.IO次数更少:B+Tree的内部节点只存放键,不存放值,内存页可以存放更多的索引,有利于更快的缩小查找范围。
2.遍历更加方便:B+Tree的叶子结点都是相链的,因此对整棵树的遍历只需要一次线性遍历叶子结点即可。由于数据是顺序排列并且相连,因此便于区间查找与搜索。而B-Tree叶子结点是没有链表的,B-Tree需要进行每一层的递归遍历,因为相邻的元素可能在内存中并不相邻。
3.B+Tree更适合范围查询:从第二点的解释上就可以知道。
4.B+Tree的查询效率更加稳定:因为B+Tree的数据是存在叶子结点中的,任何关键字的查找都必须是从根节点开始查,最终从叶子结点中找到数据,所以,所有的关键字查询路径长度相同,每一个数据的查询效率相当。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值