order by + limit 重复数据

原创已于 2022-08-19 15:35:38 修改 · 783 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#mysql

于 2022-08-19 15:34:28 首次发布

踩坑专栏收录该内容

1 篇文章

订阅专栏

本文解析了MySQL 5.6版本中优化ORDER BY LIMIT场景的Priority Queue（PQ）机制，当排序字段无索引且值不唯一时，如何利用堆排序提高性能。重点讨论了索引排序字段和加入唯一值的重要性，并引用官方文档作为参考。

文章目录

问题描述
参考文章：

问题描述

最近线上出现了一个问题，在某个 SELECT … FROM table1 ORDER BY ××× LIMIT N 时，第一页和第二页出现了重复的数据。

结论

MySQL在5.6版本的时候对 ORDER BY LIMIT 做了个优化（排序字段无索引，且值不唯一）时，优化器遇到 ORDER BY LIMIT 语句的时候，使用了priority queue（优先队列），优先队列使用的堆排序，因为这种场景是用于求TOP N 问题，堆排快，但是堆排不稳定。

分析

在官方文档当中，有提到
在这里插入图片描述
在官方文档当中

while (get_next_sortkey())
     {
       if (using priority queue)
         push sort key into queue
       else
       {
         if (no free space in sort_keys buffers)
         {
           sort sort_keys buffer;
           dump sorted sequence to 'tempfile';
           dump BUFFPEK describing sequence location into 'buffpek_pointers';
         }
         put sort key into 'sort_keys';
       }
     }
     if (sort_keys has some elements && dumped at least once)
       sort-dump-dump as above;
     else
       don't sort, leave sort_keys array to be sorted by caller.

描述了伪代码的优化。原因是啥呢，就是因为快。