数据库索引&数据页

本文探讨了数据库索引的优点和缺点,详细解释了索引如何提高查询效率和减少排序成本,同时也分析了索引可能导致的性能问题,包括对更新操作的影响及存储空间的消耗。

索引的好处

 

索引带来的益处可能很多读者会认为只是"能够提高数据检索的效率,降低数据库的IO成本"。

 

确实,在数据库中表的某个字段创建索引,所带来的最大益处就是将该字段作为检索条件时可以极大地提高检索效率,加快检索时间,降低检索过程中须要读取的数据量。但是索引带来的收益只是提高表数据的检索效率吗?当然不是,索引还有一个非常重要的用途,那就是降低数据的排序成本

我们知道,每个索引中的数据都是按照索引键键值进行排序后存放的,所以,当Query 语句中包含排序分组操作时,如果排序字段索引键字段刚好一致,MySQL Query Optimizer 就会告诉 mysqld 在取得数据后不用排序了,因为根据索引取得的数据已经满足客户的排序要求。

 

那如果是分组操作呢?分组操作没办法直接利用索引完成。但是分组操作是须要先进行排序然后分组的,所以当Query 语句中包含分组操作,而且分组字段也刚好和索引键字段一致,那么mysqld 同样可以利用索引已经排好序的这个特性,省略掉分组中的排序操作。

 

排序分组操作主要消耗的是内存和 CPU 资源,如果能够在进行排序分组操作中利用好索引,将会极大地降低CPU资源的消耗。

 

索引的弊端

 

索引的益处已经清楚了,但是我们不能只看到这些益处,并认为索引是解决 Query 优化的圣经,只要发现 Query 运行不够快就将 WHERE 子句中的条件全部放在索引中是错误的。

 

确实,索引能够极大地提高数据检索效率,也能够改善排序分组操作的性能,但有不能忽略的一个问题就是索引是完全独立于基础数据之外的一部分数据。假 设在Table ta 中的Column ca 创建了索引 idx_ta_ca,那么任何更新 Column ca 的操作,MySQL在更新表中 Column ca的同时,都须要更新Column ca 的索引数据,调整因为更新带来键值变化的索引信息。而如果没有对 Column ca 进行索引,MySQL要做的仅仅是更新表中 Column ca 的信息。这样,最明显的资源消耗就是增加了更新所带来的 IO 量和调整索引所致的计算量。此外,Column ca 的索引idx_ta_ca须要占用存储空间,而且随着 Table ta 数据量的增加,idx_ta_ca 所占用的空间也会不断增加,所以索引还会带来存储空间资源消耗的增加。

 

较频繁的作为查询条件的字段应该创建索引

 

提高数据查询检索的效率最有效的办法就是减少须要访问的数据量,从上面索引的益处中我们知道,索引正是减少通过索引键字段作为查询条件的 Query 的IO量之最有效手段。所以一般来说应该为较为频繁的查询条件字段创建索引。

 

唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件

 

唯一性太差的字段主要是指哪些呢?如状态字段类型字段等这些字段中存放的数据可能总共就是那么几个或几十个值重复使用,每个值都会存在于成千上万 或更多的记录中。对于这类字段,完全没有必要创建单独的索引。因为即使创建了索引,MySQL Query Optimizer 大多数时候也不会去选择使用,如果什么时候 MySQL Query Optimizer选择了这种索引,那么非常遗憾地告诉你,这可能会带来极大的性能问题。由于索引字段中每个值都含有大量的记录,那么存储引擎在根据索引 访问数据的时候会带来大量的随机IO,甚至有些时候还会出现大量的重复IO。

比如说,一张表中有60%的记录的age字段等于20,给这个字段建立索引,查询age等于20的记录,因为唯一性太差了,可能会带来极大的性能问题。

 

这主要是由于数据基于索引扫描的特点引起的。当我们通过索引访问表中数据时,MySQL 会按照索引键的键值顺序来依序访问。一般来说,每个数据页中大都会存放多条记录,但是这些记录可能大多数都不会和你所使用的索引键的键值顺序一致。

为什么重复值高的字段不适合单独创建索引?

来源:http://www.cnblogs.com/gossip/p/9237686.html

因为非聚集索引的字段值如果重复率高,这些记录很可能会被放在不同数据页(可以想象为很多逻辑位置),根据索引去查找这些不同数据页的记录,花费的时间可能不亚于全表扫描,而且索引占了很多内存,更新也要修改。

什么是数据页?

来源:https://www.cnblogs.com/wade-luffy/p/6289917.html

数据页是InnoDB存储引擎管理数据库的最小磁盘单位。页类型为B-tree node的页,存放的即是表中行的实际数据了。

更新非常频繁的字段不适合创建索引

 

上面在索引的弊端中已经分析过了,索引中的字段被更新的时候,不仅要更新表中的数据,还要更新索引数据,以确保索引信息是准确的。这个问题致使IO 访问量较大增加,不仅仅影响了更新 Query 的响应时间,还影响了整个存储系统的资源消耗,加大了整个存储系统的负载。

当然,并不是存在更新的字段就适合创建索引,从判定策略的用语上也可以看出,是"非常频繁"的字段。到底什么样的更新频率应该算是"非常频繁"呢? 每秒?每分钟?还是每小时呢?说实话,还真难定义。很多时候是通过比较同一时间段内被更新的次数和利用该字段作为条件的查询次数来判断的,如果通过该字段 的查询并不是很多,可能几个小时或是更长才会执行一次,更新反而比查询更频繁,那这样的字段肯定不适合创建索引

 

总的来说,索引虽好,也不要随意创建索引,索引使用不当还会影响效率!

 

聚集索引到底是什么?

如果不创建索引,系统会自动创建一个隐含列作为表的聚集索引,逻辑存储与物理顺序相同。如主键创建的索引。

非聚集索引

非聚集索引,分成普通索引,唯一索引,全文索引;逻辑存储与物理顺序不同;所以,像我们平常手动创建的普通索引就是非聚集索引。如非主键创建的索引。

 

 来源:https://blog.youkuaiyun.com/linminqin/article/details/44342205

转载于:https://www.cnblogs.com/theRhyme/p/9150491.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值