【学习】数据库学习 -- 索引的原理

最新推荐文章于 2024-04-15 17:04:53 发布

原创最新推荐文章于 2024-04-15 17:04:53 发布 · 281 阅读

CC 4.0 BY-SA版权

3 篇文章

订阅专栏

本文深入解析数据库索引的原理，包括B+Tree和Hash索引的特点，以及它们如何加速数据检索，同时探讨索引对增删改操作的影响，介绍聚集与非聚集索引的区别，覆盖索引的使用技巧，以及最左匹配原则的应用。

三、索引内容学习

1. 索引的基础知识

Mysql的基本存储结构是页（所有的记录都存储在页里）：

各个数据页可以组合成一个双向链表
每个数据页中的所有记录可以组成一个单向链表
每个数据页都会为存储在他里面的记录生成一个页目录，在我们通过主键查找某条记录的时候就可以在页目录中使用二分法快速定位到对应的槽，然后遍历该槽对应分组中的记录可以快速找到指定记录
以其他列作为搜索条件：只能从最小记录开始依次遍历单链表中的每条记录

比如，如果执行 select * from user where username = 'Java' 这样没有进行任何优化的sql语句，默认会这样做：

在数据量很大时，查询速度非常慢！

2.索引提高检索速度

索引建立了B+Tree树形结构，将无序的数据结构重组成有序：

3.索引降低增删改的速度

4.哈希索引

除B+Tree之外常见的一种索引就是哈希索引
哈希索引就是采用一定的哈希算法，把键值换算成新的哈希值，检索时不需要类似B+树那样从根节点到叶子节点逐级查找，只需一次哈希算法即可立刻定位到相应的位置，速度非常快

局限性：

5.innoDB支持Hash索引和B+Tree索引

6.聚集索引和非聚集索引的区别

简单来说：

区别：

非聚集索引在建立的时候也未必是单列的，可以多个列来创建索引

在创建多列索引中也涉及到了一种特殊的索引 -- 覆盖索引

比如说：

现在我创建了索引（username，age），在查询数据的时候：select username,age from user where username='Java' and age=20
很明显地知道，我们上边的查询是走索引的，并且，要查询出的列在叶子节点都存在！所以，就不用回表了
所以，能使用覆盖索引就尽量使用吧

7.索引最左匹配原则

索引可以简单如一个列(a)，也可以复杂如多个列(a, b, c, d)，即联合索引。
如果是联合索引，那么key也由多个列组成，同时，索引只能用于查找key是否存在（相等），遇到范围查询(>、<、between、like左匹配)等就不能进一步匹配了，后续退化为线性查找。
因此，列的排列顺序决定了可命中索引的列数。

例子：

如有索引(a, b, c, d)，查询条件a = 1 and b = 2 and c > 3 and d = 4，则会在每个节点依次命中a、b、c，无法命中d。(很简单：索引命中只能是相等的情况，不能是范围匹配)

8.=、in自动优化顺序

不需要考虑=、in等的顺序，mysql会自动优化这些条件的顺序，以匹配尽可能多的索引列
如有索引(a, b, c, d)，查询条件c > 3 and b = 2 and a = 1 and d < 4与a = 1 and c > 3 and b = 2 and d < 4等顺序都是可以的，MySQL会自动优化为a = 1 and b = 2 and c > 3 and d < 4，依次命中a、b、c

9.索引总结

上面谈的其实就是索引最基本的东西，要创建出好的索引要顾及到很多的方面：

最左前缀匹配原则。这是非常重要、非常重要、非常重要（重要的事情说三遍）的原则，MySQL会一直向右匹配直到遇到范围查询（>,<,BETWEEN,LIKE）就停止匹配。
尽量选择区分度高的列作为索引，区分度的公式是 COUNT(DISTINCT col) / COUNT(*)。表示字段不重复的比率，比率越大我们扫描的记录数就越少。
索引列不能参与计算，尽量保持列“干净”。比如，FROM_UNIXTIME(create_time) = '2016-06-06' 就不能使用索引，原因很简单，B+树中存储的都是数据表中的字段值，但是进行检索时，需要把所有元素都应用函数才能比较，显然这样的代价太大。所以语句要写成： create_time = UNIX_TIMESTAMP('2016-06-06')。
尽可能的扩展索引，不要新建立索引。比如表中已经有了a的索引，现在要加（a,b）的索引，那么只需要修改原来的索引即可。
单个多列组合索引和多个单列索引的检索查询效果不同，因为在执行SQL时，MySQL只能使用一个索引，会从多个单列索引中选择一个限制最为严格的索引。