排序相关问题

本文介绍了MySQL中ORDERBY的两种排序实现方式:利用有序索引和文件排序,讨论了如何通过索引优化来提高性能,并列举了不能使用索引优化的情况。还详细讲解了filesort过程,包括内存中的排序算法选择和外部的多路归并排序。

本篇博客在B站做了内部分享,标题为「排序相关问题」

MySQL的ORDER BY有两种排序实现方式:

  1. 利用有序索引获取有序数据
  2. (不得不进行)文件排序

在explain中分析时,利用有序索引获取有序数据显示Using index,文件排序显示Using filesort

alt



1. 能够 利用有序索引获取有序数据 的条件比较苛刻


以下几种优化方式,可能使order by利用到索引,而无需进行filesort:

1、ORDER BY的索引优化。如果一个SQL语句形如:
SELECT [column1],[column2],…. FROM [TABLEORDER BY [sort];
在[sort]这个栏位上建立索引就可以实现利用索引进行order by 优化。
 
2、WHERE + ORDER BY的索引优化,形如:
SELECT [column1],[column2],…. FROM [TABLEWHERE [columnX] = [valueORDER BY [sort];
建立一个联合索引(columnX,sort)来实现order by 优化。
 
注意:如果columnX对应多个值,如下面语句就无法利用索引来实现order by的优化
SELECT [column1],[column2],…. FROM [TABLEWHERE [columnX] IN ([value1],[value2],…) ORDER BY[sort];
 
3、WHERE+ 多个字段ORDER BY
SELECT * FROM [tableWHERE uid=1 ORDER x,y LIMIT 0,10;
建立索引(uid,x,y)实现order by的优化,比建立(x,y,uid)索引效果要好得多。
alt

Order By不能使用索引来优化排序的情况:

  • 对不同的索引键做 ORDER BY :(key1,key2分别建立索引)

      SELECT * FROM t1 ORDER BY key1, key2;

  • 在非连续的索引键部分上做 ORDER BY:(key_part1,key_part2建立联合索引;key2建立索引)

      SELECT * FROM t1 WHERE key2=constant ORDER BY key_part2;

  • 同时使用了 ASC 和 DESC:(key_part1,key_part2建立联合索引)

      SELECT * FROM t1 ORDER BY key_part1 DESC, key_part2 ASC;

  • 用于搜索记录的索引键和做 ORDER BY 的不是同一个:(key1,key2分别建立索引)

      SELECT * FROM t1 WHERE key2=constant ORDER BY key1;

  • 如果在WHERE和ORDER BY的栏位上应用表达式(函数)时,则无法利用索引来实现order by的优化

      SELECT * FROM t1 ORDER BY YEAR(logindate) LIMIT 0,10;

CREATE TABLE `weekxxxxxnor_detail` (
  `id` int(11unsigned NOT NULL AUTO_INCREMENT COMMENT '主键id',
  `mid` int(11NOT NULL DEFAULT '0' COMMENT '用户ID',
  `hid` int(11NOT NULL DEFAULT '0' COMMENT '荣誉ID',
  `word` varchar(10NOT NULL DEFAULT '' COMMENT '字',
  `text` varchar(20NOT NULL DEFAULT '' COMMENT '文案',
  `description` varchar(40NOT NULL DEFAULT '' COMMENT '说明',
  `xxxxx_date` date NOT NULL DEFAULT '0000-00-00' COMMENT 'xx生成日期(每周日)',
  `ctime` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `mtime` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `ix_mtime` (`mtime`),
  KEY `ix_mid_honor_date` (`mid`,`honor_date`)
ENGINE=InnoDB AUTO_INCREMENT=149628474 DEFAULT CHARSET=utf8 COMMENT='xxxxxx详情记录'


详细参见 https://note.youdao.com/web/#/file/WEB00c9fc9e542b90ea18d0c3cc53e74d96/note/WEBcb79302cc9f9cadb9d543963f9793baf/

搜索 ENGINE=InnoDB AUTO_INCREMENT=149628474 DEFAULT CHARSET=utf8 COMMENT=

alt
alt



2. filesort


2.1 在内存中可能用 堆排序或快速排序,


具体使用哪一种排序方式是优化器决定的,基本原则如下

快速排序算法:大量排序
堆排序算法:排序量不大

快速排序和堆排序都是不稳定的排序算法,对于重复值不能保证顺序。这就是Order by排序可能会不稳定的原因

alt

之前遇到的坑:

alt

2.1.1 在把数据加载到BUFFER内部时有两种方式:

  • 双路排序:(rowid排序/二次访问排序/回表排序模式)

首先根据相应的条件取出相应的排序字段和可以直接定位行数据的行指针信息,然后在sort buffer 中进行排序。排序后再把查询字段依照行指针取出,共执行两次磁盘io。

  • 单路排序:MySQL4.1之后新增(全字段排序/一次访问排序)

一次性取出满足条件行的所有字段,然后在sort buffer中进行排序。 执行一次磁盘io。代价是对内存占用大


使用哪种方式,取决于设定的系统参数max_length_for_sort_data(默认为1K) 和Query 语句所取出的字段类型大小总和的大小关系, 来判定是使用双路排序还是单路排序。

如果单行的长度超过max_length_for_sort_data的值,MySQL就认为单行太大,使用双路排序方式;

如果 max_length_for_sort_data更大,则使用第二种优化后的算法。


所以如果希望 ORDER BY 操作的效率尽可能的高,一定要注意max_length_for_sort_data 参数的设置。

alt

2.2 在外部使用多路归并排序算法:


alt

2.3 整个filesort的过程如下:


(1)根据表的索引或者全表扫描,读取所有满足条件的记录。

(2)对于每一行,存储一对值到缓冲区(排序列和行记录指针,或者是排序列和查询需要的所有列),缓冲区的大小为sort_buffer_size大小(默认为1M)。

(3)当缓冲区满后,运行一个快速排序(qsort; 数据量不大时也可能用堆排序)来将缓冲区中数据排序,并将排序完的数据存储到一个临时文件,并保存一个存储块的指针,当然如果缓冲区不满,则不会重建临时文件了。

(4)重复以上步骤,直到将所有行读完,并建立相应的有序的临时文件。

(5)对块级进行排序,使用归并排序算法,通过对几个临时文件的指针来不断交换数据,最终达到几个文件,都是有序的。

(6)重复5直到所有的数据都排序完毕。

(7)采取顺序读的方式,将每行数据读入内存(这里读取数据时并不是一行一行读),并取出数据传到客户端,读取缓存大小由read_rnd_buffer_size来指定。

alt

参考:

https://dev.mysql.com/doc/refman/5.7/en/order-by-optimization.html#order-by-filesort-in-memory

本文由 mdnice 多平台发布

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值