MySQL 索引机制

最新推荐文章于 2024-08-17 21:44:45 发布

原创最新推荐文章于 2024-08-17 21:44:45 发布 · 413 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #mysql #sql

本文深入探讨了MySQL索引的机制，从二叉树、Hash表到B树和B+树，分析了MySQL中InnoDB和MyISAM索引的组织区别，强调了B+树的优势。此外，文章还介绍了主键索引、二级索引、覆盖索引等索引类型，并解释了查询优化和避免bad SQL的方法。

谈到 MYSQL 索引服务端的同学应该是熟悉的不能再熟悉，新建表的时候怎么着都知道先来个主键索引，对于经常查询的列也会加个索引加快查询速度。那么 MYSQL 索引都有哪些类型呢？索引结构是什么样的呢？有了索引是如何检索数据的呢？

你认为应该如何查询数据

谈到 InnoDB 引擎的时候聊过在 InnoDB 引擎是面向行存储的，数据都是存储在磁盘的数据页中，数据页里面按照固定的行格式存储着每一行数据。

InnoDB存储引擎是 B+ 树索引组织的，所以数据即索引，索引即数据。B+ 树的叶子节点存储的都是数据段的数据。InnoDB 引擎对数据的存储必须依赖于主键，主键对应的索引叫做聚集索引。如果不幸的是你建表没有建主键，InnoDB 会从表字段中寻找第一个非空的唯一索引作为聚集索引，如果还是不幸找不到，InnoDB 会生成一个不可见的名为 ROW_ID 的列，该列是一个 6 字节的自增数字，用来创建聚集索引。

小Tips:

对于 ROW_ID 列的自增实现其实是来自于一个全局自增序列，这意味着所有使用到 ROW_ID 作为聚集索引的表都共享该序列，如果在高并发的情况就有保证不了唯一性的可能。

大家都知道 MYSQL 中索引是使用 B+ 树的数据结构，在此也就不故弄玄虚。但是大家有没有想过除了 B+ 树还有什么数据结构也可以用于索引检索呢？我们不妨来看看。

二叉树

对于二叉树而言，每个节点只能有两个子节点，如果是一颗单边二叉树，查询某个节点的次数与节点所处的高度相同，时间复杂度为O(n)；如果是一颗平衡二叉树，查找效率高出一半，时间复杂度为O(Log2n)。

并且二叉树还有另一个坏处，二叉树上的每一个节点都是数据节点，那么对于一个比较高的数如果要获取最下面的数据遍历的节点数将会很消耗性能。

Hash 表

散列表的好处是散列查询单条数据比较快，但是坏处也比较多，比如 Hash 碰撞的解决，范围查找等等。

B 树

B树是二叉树的升级版，又叫平衡多路查找树。它和平衡二叉树的区别在于：

平衡二叉树最多两个子树，而 B 树每个节点都可以有多个子树，M 阶 B 树表示每个节点最多有M个子树。

平衡二叉树每个节点只有一个数据和两个指向孩子的指针，而 B 树每个中间节点有 k-1 个关键字（可以理解为数据）和 k 个子树（ k 介于阶数 M 和 M/2 之间，M/2 向上取整）。

所有叶子节点均在同一层、叶子节点除了包含关键字和关键字记录的指针外也有指向其子节点的指针，只不过其指针地址都为 null 。

另外，它们相同的点是节点数据也是按照左小右大的顺序排列。我们用一张图来对比它们的区别：

B+ 树

说到 B 树就连着B+树一起说了。B+ 树是应文件系统所需而产生的一种 B 树的变形树（文件的目录一级一级索引，只有最底层的叶子节点（文件）保存数据）非叶子节点只保存索引，不保存实际的数据）。

这里有一个很重要的一点就是 B+ 树的非叶子节点不保存数据，只有索引。一棵 m 阶的 B+ 树和 m 阶的 B 树的异同点在于：

节点的子树数和关键字数相同（B 树是关键字数比子树数少一）；

所有的叶子结点中包含了全部关键字的信息，即指向含有这些关键字记录的指针（节点的关键字表示的是子树中的最大数，在子树中同样含有这个数据），且叶子结点本身依关键字的大小自小而大的顺序链接。 (而 B 树的叶子节点并没有包括全部需要查找的信息)；

所有的非终端结点可以看成是索引部分，结点中仅含有其子树根结点中最大（或最小）关键字。 (而 B 树的非终节点也包含需要查找的有效信息)。

叶子节点之间通过指针连接。

对于 B 树和 B+ 树来说，两种数据结构都是为了减少磁盘 I/O 读写过于频繁而生，本身节点的个数是有限的，采用多叉结构就是为了让每一层放尽可能多的节点以此来降低整棵树的高度。但是为什么 InnoDB 索引结构最终选择了 B+ 树而不是B 树呢？

B+ 树的磁盘读写代价更低

B+ 树内部非叶子节点本身并不存储数据，所以非叶子节点的存储代价相比 B 树就小的多。存储容量减少同时也缩小了占用盘块的数量，那么数据的聚集程度直接也影响了查询磁盘的次数。

B+ 树查询效率更加稳定

树高确定的前提下所有的数据都在叶子节点，那么无论怎么查询所有关键字查询的路径长度是固定的。

B+ 树对范围查询的支持更好

B+ 树所有数据都在叶子节点，非叶子节点都是索引，那么做范围查询的时候只需要扫描一遍叶子节点即可；而 B 树因为非叶子节点也保存数据，范围查询的时候要找到具体数据还需要进行一次中序遍历。

MyISAM 和 InnoDB 索引组织的区别

在 MYSQL 中索引属于存储引级别的概念，存储引擎不同，索引的实现方式也不一样。我们分别看看看 MyISAM 和 InnoDB 中都是如何实现索引功能。

MyISAM 实现

MyISAM 也是使用 B+ 树作为索引存储结构，他的叶子节点 data 域存放的是数据的物理地址，即索引结构和真正的数据结构其实是分开存储的。

InnoDB 索引实现

MyISAM 索引和数据是分离的，但是在 InnoDB 中却大不相同，InnoDB 中采用主键索引的方式，所有的数据都保存在主键索索引中。

所以这也是为什么 InnoDB 要求每个表都必须要有主键的原因。本身就是基于主键来组织的数据存储。

索引类型

以下所有索引类型都是基于 InnoDB 引擎。

主键索引

主键索引也就是我们说的聚集索引。上面说过主键索引是基于主键来创建的 B+ 树索引结构，如果没有指定主键，也找不到任何一列不重复的列可以作为主键的情况下，InnoDB 会新增一个隐藏列 RowId 作为主键继而创建聚集索引。

二级索引(非主键索引)

二级索引就是指除了主键索引外的索引。主键索引和所有的二级索引都是各自维护各自的 B+ 树结构，但是有个不同的地方在于，二级索引的叶子节点存储的不是数据，而是主键索引对应的主键值。

即二级索引不再保存一份 data 数据，而是去主键索引中查数据。那么对于二级索引查找一条数据所要做的操作就是：

首先在二级索引中找到叶子节点对应的数据主键值；

根据这个主键值去聚集索引中找到真正对应的数据行。

所以这里需要两次 B+ Tree 查找。

覆盖索引

覆盖索引简单来说就是只查询索引就能获取到数据不必再回表查询，换句话说要查询的列已经被索引列覆盖。

使用覆盖索引有如下优点：

索引项通常比记录要小，所以 MySQL 访问更少的数据；

索引都按值的大小顺序存储，相对于随机访问记录，需要更少的 I/O；

大多数据引擎能更好的缓存索引。比如 MyISAM 只缓存索引;

覆盖索引对于 InnoDB 表尤其有用，因为 InnoDB 使用聚集索引组织数据，如果二级索引中包含查询所需的数据，就不再需要在聚集索引中查找了。

覆盖索引不能是任何索引，只有 B Tree 索引存储相应的值。而且不同的存储引擎实现覆盖索引的方式都不同，并不是所有存储引擎都支持覆盖索引( Memory 和 Falcon 就不支持)。

联合索引

有的时候我们会对多个列建立一个索引，这种索引被称为联合索引。而关于联合索引的建立和使用，从工作开始你的各位 “师长” 都在教导你要遵循 “左前匹配原则”，那到底是为什么呢？什么是左前匹配原则呢？

比如我们有这样一张表：

CREATE TABLE `test_tb` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `a` varchar(10) NOT NULL,
  `b` varchar(10) NOT NULL,
  `c` varchar(10) NOT NULL,
  `d` int(10) NOT NULL,
  `e` int(10) NOT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_a_b_c` (`a`,`b`,`c`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

上表建立了一个联合索引：idx_a_b_c。下面给出一个 SQL，大家看它会不会走索引查询：

select  *  from test_tb where b = '10';

很显然根据 “左前匹配原则” 肯定不会走索引查询，最终还是全表扫描。

原因就在于联合索引的结构上。上面对 a,b,c 三个字段建立索引，那么对应的 B+ Tree 索引结构每个节点其实是按照三个字段的前后顺序排列的，即 a 字段检索在最前面，然后是b，然后是c。如果你的查询不是按照这个顺序来检索，是不会被这个索引识别的。

左前匹配原则

上面说到联合索引会遵循左前匹配原则，那么什么是左前匹配呢？

其实就是字面意义上的从建立索引的第一个字段开始先匹配查询条件，如果当前查询条件不是第一个字段那么就不会走该索引。

另外对于联合索引的使用也有一些限制，比如说：

遇到范围查询 ( > ,<, between, like) 就会停止匹配

比如哦我们看这个 SQL：

select * from test_tb where a = '1' and b = '3' and d < 20 and c = '5';

大家觉得这个 SQL 会如何使用索引呢？

其实这 SQL 在前面a，b的查询中是会走联合索引的，但是在经历了d的查询之后，到了c就不会使用索引了，因为d的查询已经将索引的顺序打乱了，从 d 条件过后就没有办法直接使用联合索引。

在索引列上做操作（函数，自定义计算）

同样对索引列做计算也是无法直接应用索引，不言自明，索引是对已有的数据进行归纳排序，你计算之后的数据是新的内容，索引并没有包含这些数据，无从查起。

查询条件包含 or，可能导致索引失效

比如有一张 user 表：

CREATE TABLE `user` (  
  `id` int(11) NOT NULL AUTO_INCREMENT,  
  `userId` int(11) NOT NULL,  
  `age` int(11) NOT NULL,  
  `name` varchar(255) NOT NULL,  
  PRIMARY KEY (`id`),  
  KEY `idx_userId` (`userId`)  
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

如下查询语句：

select * from user where userId=3 or age > 20;

大家觉得这句会走索引吗？

我们可以分析一下，如果 userId 查询走了索引这没问题，但是遇到 age > 20 这肯定没法走索引，那么前面 userId 走索引做一次索引扫描就没有意义，所以优化器认为这种情况下不如一开始就走全表扫描更省事。

但是如果 or 前后的两个字段都加了索引那么可能会走，这种要依情况而定。

字符串类型的索引字段作为查询条件时一定要用引号括起来，否则索引不生效

上面我们没有说的一点是，B+Tree 索引结构的 key 都是用数字表示的，因为数字比较省空间，就算是字符串格式的字段，最终也会被转为二进制表示。但是对于不加引号的字符串，MSYQL 会自动做一次隐式转换将字符串转为浮点类型，这就导致不匹配。

like 通配符 可能导致索引失效

使用 like 模糊查询并不是所有的都会失效，只有以 “%” 开头的 like 查询才会失效。

左连接查询或者右连接查询查询关联的字段编码格式不一样，可能导致索引失效。

这个比较不常见，一般来说同一个库中的表使用的编码格式应该是一样的，但是不排除老项目新老表有区别。

索引的缺点

上面一直在谈论索引的优点，凡事有利就有弊，它也不是没有缺点的：

磁盘空间占用。这个对于当前磁盘比买菜还便宜的硬件大通货时代其实算不上问题，但是要注意的是如果当前 MySQL 服务所在的机器有很多的大表，并且还创建了每一种可能的组合的索引，那么索引文件提及的增长可能超乎你的想象。

维护索引对更新类操作所带来的耗时。当对索引涉及到的列做更新或者新增操作时都会去维护相关的索引，这里也是一个耗时的点，所以索引不在多，而在精。

检查一条 SQL 是否是 bad SQL - 执行计划

在 MySQL 中如何知道一条 sql 到底有没有用到索引呢？MySQL 提供了 explain 关键字来查询一条 sql 的执行效率。

比如我们有一张 user 表：

CREATE TABLE `user` (  
  `id` int(11) NOT NULL AUTO_INCREMENT,  
  `userId` int(11) NOT NULL,  
  `age` int(11) NOT NULL,  
  `name` varchar(255) NOT NULL,  
  PRIMARY KEY (`id`),  
  KEY `idx_userId` (`userId`)  
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

查询下面 sql 的查询效率：

mysql> explain select * from user where id = 3;
+----+-------------+-------+------+---------------+------+---------+------+--------+-------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows   | Extra |
+----+-------------+-------+------+---------------+------+---------+------+--------+-------+
|  1 | SIMPLE      | user  | const  | PRIMARY    | PRIMARY | 4    | const |     1 | NULL  |
+----+-------------+-------+------+---------------+------+---------+------+--------+-------+
1 row in set (0.04 sec)

执行计划各个字段的含义如下：

列名	含义
id	执行序号，MSYQL 会按照从大到小的顺序执行
select_type	查询类型：SIMPLE: 简单查询 PRIMARY: 外层查询 SUBQUERY: 子查询 DERIVED: 派生查询（FROM 中包含的子查询） UNION: UNION 中第二个或后面的那个查询 UNION RESULT: UNION 的结果
table	引用的表
partitions	所属分区
type	访问类型官方文档，常见访问类型： system : 只有一条记录的表（=系统表） const : 通过索引一次就查询到 eq_ref : 唯一索引等值扫描 ref : 非唯一索引等值扫描 range : 范围索引扫描 index : 索引扫描 all : 全表扫描
possible_keys	可能使用的索引（优化前）
key	实际使用的索引（优化后）
key_len	使用索引的长度
ref	上述表的连接匹配条件（哪些列或常量被用于查找索引列上的值）
rows	必须扫描的行数
Extra	附加信息官方文档，常见附加信息： Using filesort : mysql 无法利用索引完成排序操作 Using temporary : 使用了临时表保存中间结果 Using index : select 操作使用了覆盖索引 Using where : 使用 where 过滤 using join buffer : 使用了连接缓存 impossible where : where 子句的值总是 false，不能用来获取任何记录 distinct : 优化 distinct，在找到第一个匹配的记录后停止扫描同样值的动作