37 | 什么时候会使用内部临时表

最新推荐文章于 2024-12-25 17:18:27 发布

转载最新推荐文章于 2024-12-25 17:18:27 发布 · 292 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://time.geekbang.org/column/article/80477

MySQL 专栏收录该内容

48 篇文章

订阅专栏

本文解析MySQL在执行union和groupby操作时如何使用内存和磁盘临时表，探讨tmp_table_size参数的作用，以及如何通过索引和SQL_BIG_RESULT提示优化groupby性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

排序的时候会用到sort buffer

join的时候会用到join buffer

内存临时表

内存临时表是怎么工作的，什么情况下会使用内存临时表：

union执行流程

（select 1000 as f） union (select id from t1 order by id desc limit 2);

取这两个子查询结果的并集。并集的意思就是这两个集合加起来，重复的行只保留一行。

explain结果：

可以看到：

第二行的key=PRIMARY，说明第二个字句用到了索引id。
第三行的Extra字段，表示在对子查询做union的时候，使用了临时表（Using temporay）。

语句执行流程：

创建一个内存临时表，这个临时表只有一个字段f，并且f是主键字段。
执行第一个子查询，得到1000这个值，并存入临时表中。
执行第二个子查询：

3.1 拿第一行id=1000，试图插入临时表中，但由于1000这个值已经存在了，违反了唯一性约束，所以插入失败，然后继续执行；

3.2 取到第二行id=999，插入临时表成功。

4.从临时表中按行取出数据，返回结果，并删除临时表，结果中包含两行数据分别是1000和999。

如果改成union all的话，就没有了“去重”的语义。这样执行的时候，就依次执行子查询，得到的结果直接作为结果集的一部分，发给客户端。因此也就不需要临时表了。

Extra字段显示的是Using index，表示只使用了覆盖索引，没有使用临时表。

group by执行流程

select id%10 as m, count(*) as c from t1 group by m;

意思是把表t1里的数据，按照id%10进行分组统计，并按照m的结果排序后输出。

执行结果：

explain结果：

Extra可以看到三个信息：

Using index，表示这个语句使用覆盖索引，选择了索引a，不需要回表；
Using temporary，表示使用了临时表；
Using filesort，表示需要排序。

语句执行流程：

创建内存临时表，表里有两个字段m和c，主键是m；
扫描表t1的索引a，依次取出叶子节点上的id值，计算id%10的结果，记为x；

2.1 如果临时表中没有主键为x的行，就插入一个记录（x,1）;

2.2 如果表中有主键为x的行，就将x这一行的c值加1；

3.遍历完后，再根据字段m做排序，得到结果集返回给客户端。

如果需求并不需要对结果进行排序，可以在SQL语句末尾增加order by null，也就是改成：

select id%10 as m, count(*) as c from t1 group by m order by null;

执行结果：

explain结果：

可以看出没有排序。

这个例子里由于临时表只有10行，内存可以放得下，因此全程只使用了内存临时表。但是，内存临时表的大小是有限制的，参数tmp_table_size就是控制这个内存大小的，默认是16M。

如果内存临时表放不下，就会把内存临时表转成磁盘临时表，磁盘临时表默认使用的引擎是InnoDB；

如果t1表数据量很大，很可能这个查询需要的磁盘临时表就会占用大量的磁盘空间。

group by优化方法 -- 索引

不论是使用内存临时表还是磁盘临时表，group by逻辑都需要构造一个带唯一索引的表，执行代价都是比较高的。如果表的数据量比较大，上面这个group by语句执行起来就会很慢，有没有什么优化方法呢？

执行group by语句为什么需要临时表？

group by的语义逻辑，是统计不同的值出现的个数。但是，由于每一行的id%10的结果是无序的，所以我们就需要有一个临时表，来记录并统计结果。

如果扫描过程中可以保证出现的数据是有序的，是不是就简单了？

MySQL 5.7版本支持了generated column机制，用来实现列数据的关联更新：

alter table t1 add column z int generated always as(id%100),add index(z);

group by就可以改成：

select z, count(*) as c from t1 group by z;

优化后，explain结果：

从Extra可以看出，这个语句的执行不再需要临时表，也不需要排序了。

group by 优化方法 -- 直接排序

如果可以通过索引来完成group by逻辑就再好不过了。

但是如果碰上不适合建索引的场景怎么办。

正常的逻辑是“先放到内存临时表，插入一部分数据后，发现内存临时表不够用了再转成磁盘临时表”。

MySQL有没有让我们直接走磁盘临时表的方法呢？答案是有的。

在group by语句中加入SQL_BIG_RESULT这个提示（hit），就可以告诉优化器：这个语句涉及的数据量很大，请直接使用磁盘临时表。

并且，磁盘临时表是B+树存储，存储效率不如数组高，所以MySQL会直接用数组来存。

因此

select SQL_BIG_RESULT id%100 as m, count(*) as c from t1 group by m;

执行流程：

初始化sort_buffer，确定放入一个整型字段，记为m；
扫描表t1的索引a，依次取出里面的id值，将id%100的值存入sort_buffer中；
扫描完后，对sort_buffer的字段做排序（如果sort_buffer内存不够用，就会利用磁盘临时文件辅助排序）；
排序完成后，就得到了一个有序数组。

explain结果：

Extra表示，这个语句没有使用临时表，直接用了排序算法。

MySQL什么时候会使用内存临时表？

如果语句执行过程中，一边直接得到结果，是不需要额外内存的，否则就需要额外的内存来保存中间结果；
join_buffer是无序数组，sort_buffer是有序数组，临时表是二维表结构；
如果执行逻辑需要用到二维表特性，就会优先考虑使用临时表。比如例子中，union需要用到唯一索引，group by还需要用到另外一个字段来存积累计数。

指导原则：

如果对group by语句的结果没有排序的要求，要在语句后面加上order by null;
尽量让group by过程用上表的索引，确认方法是explain结果有没有Using temporary和Using filesort；
如果group by需要统计的数据量不大，尽量只使用内存临时表；也可以通过适当调大tmp_table_size参数，来避免用到磁盘临时表；
如果数据量实在太大，使用SQL_BIG_RESULT这个提示，来告诉优化器直接使用排序算法得到group by的结果。

上一篇：36 | 为什么临时表可以重名

下一篇：38 | 都说InnoDB好，那还要不要使用Memory引擎