SQL查询语句的执行顺序

好的,我们来详细讲解一下 SQL 查询语句的执行顺序
很多人会误以为 SQL 的执行顺序就是我们写的顺序(SELECT -> FROM -> WHERE -> GROUP BY -> HAVING -> ORDER BY),但实际上,数据库引擎在底层处理查询时,遵循一个完全不同的逻辑顺序。理解这个顺序对于编写高效、正确的 SQL 查询至关重要,即:

FROM/JOIN → WHERE → GROUP BY → HAVING → DISTINCT → ORDER BY → LIMIT→ SELECT。

一、核心执行顺序(逻辑查询处理顺序)

这是 SQL 查询在数据库内部被处理的逻辑步骤。每一步都会产生一个虚拟表,作为下一步的输入。
我们以一个完整的查询为例:

SELECT DISTINCT column1, column2
FROM table1
JOIN table2 ON table1.id = table2.id
WHERE condition
GROUP BY column1
HAVING group_condition
ORDER BY column2 DESC
LIMIT n;

它的实际执行顺序如下:

第 1 步:FROM / JOIN
  • 作用:确定需要查询的数据来源。数据库引擎首先会执行 FROM 子句,如果有关联的表(JOIN),它会根据 ON 条件将这些表连接起来,形成一个大的虚拟表(VT1)。
  • 为什么是第一步:因为所有后续的操作(筛选、分组、排序)都必须基于一个完整的数据集。
第 2 步:WHERE
  • 作用:对 FROM 步骤生成的虚拟表(VT1)进行行级过滤。根据 WHERE 子句中的条件,移除不满足条件的行,生成一个新的虚拟表(VT2)。
  • 关键点WHERE 子句在分组和聚合之前执行。因此,它不能使用聚合函数(如 COUNT(), SUM(), AVG())。如果你尝试在 WHERE 中使用聚合函数,数据库会报错。
  • 性能提示:这是进行数据筛选最重要的环节,尽早过滤掉无用数据可以大大减少后续步骤的计算量。
第 3 步:GROUP BY
  • 作用:根据 GROUP BY 子句中指定的列,将 WHERE 步骤过滤后的虚拟表(VT2)中的数据进行分组。具有相同分组列值的行会被合并到一组,生成一个新的虚拟表(VT3)。
  • 结果:此时的虚拟表由多个“组”构成,每一组代表一个唯一的分组键值。
第 4 步:HAVING
  • 作用:对 GROUP BY 步骤生成的分组进行过滤。它类似于 WHERE,但作用于而不是单行。根据 HAVING 子句中的条件,移除不满足条件的组,生成一个新的虚拟表(VT4)。
  • 关键点HAVING分组之后执行,因此它可以使用聚合函数(如 HAVING COUNT(*) > 5)。这是 HAVINGWHERE 最本质的区别。
第 5 步:SELECT
  • 作用:这是最容易被误解的一步。直到这一步,数据库才开始真正“选择”需要返回的列。它会遍历 HAVING 步骤生成的虚拟表(VT4),并只保留 SELECT 子句中明确指定的列(或表达式),生成一个新的虚拟表(VT5)。
  • 关键点
    • 别名生效:在 SELECT 步骤中定义的列别名(如 SELECT salary * 12 AS annual_salary),在这一步之后才生效。这就是为什么在 WHEREGROUP BY 中不能使用 SELECT 中定义的别名,但在 ORDER BY 中却可以的原因。
    • 表达式计算:在 SELECT 中定义的表达式(如数学运算、函数调用)也是在这一步进行计算的。
第 6 步:DISTINCT
  • 作用:对 SELECT 步骤生成的虚拟表(VT5)进行去重。移除所有完全相同的行,生成一个新的虚拟表(VT6)。
  • 性能DISTINCT 操作通常需要排序或哈希,可能会消耗较多资源,应谨慎使用。
第 7 步:ORDER BY
  • 作用:对最终的结果集(DISTINCT 步骤后的虚拟表 VT6)进行排序。根据 ORDER BY 子句中指定的列和排序方式(ASCDESC)对行进行排序。
  • 关键点
    • 最后一步之一ORDER BY 是在几乎所有数据处理完成后才执行的。
    • 可以使用别名:因为 ORDER BYSELECT 之后执行,所以它可以引用 SELECT 中定义的列别名。
第 8 步:LIMIT / OFFSET / TOP
  • 作用:这是整个查询的最后一步。它从排序好的结果集中,限制返回的行数。
    • LIMIT n:返回前 n 行。
    • OFFSET m LIMIT n:跳过前 m 行,返回接下来的 n 行。
    • TOP n:返回前 n 行。
  • 性能提示LIMIT 通常在分页查询中使用。但请注意,如果查询中包含了 ORDER BY,数据库需要先对所有符合条件的数据进行排序,然后再应用 LIMIT,这在数据量很大时可能会很慢。

二、执行顺序与书写顺序的对比

执行顺序子句作用描述书写顺序
1FROM, JOIN确定数据源,连接表2
2WHERE过滤行(在分组前)3
3GROUP BY对行进行分组4
4HAVING过滤组(在分组后)5
5SELECT选择列,计算表达式,定义别名1
6DISTINCT去重1 (在SELECT后)
7ORDER BY对最终结果排序6
8LIMIT限制返回的行数7

三、为什么理解执行顺序很重要?(实例说明)

1. 为什么 WHERE 中不能用聚合函数,而 HAVING 可以?
-- 错误的写法
SELECT department, COUNT(*) as emp_count
FROM employees
WHERE COUNT(*) > 5  -- 报错!因为 WHERE 在 GROUP BY 之前执行,此时 COUNT(*) 还不存在
GROUP BY department;
-- 正确的写法
SELECT department, COUNT(*) as emp_count
FROM employees
GROUP BY department  -- 先分组
HAVING COUNT(*) > 5; -- 再对组进行过滤
2. 为什么 ORDER BY 可以使用 SELECT 中的别名,而 WHERE 不可以?
-- 错误的写法
SELECT first_name, salary * 12 AS annual_salary
FROM employees
WHERE annual_salary > 60000; -- 报错!因为 WHERE 在 SELECT 之前执行,别名 'annual_salary' 还不存在
-- 正确的写法
SELECT first_name, salary * 12 AS annual_salary
FROM employees
WHERE salary * 12 > 60000; -- 在 WHERE 中重复写表达式
-- 或者,利用执行顺序,在 ORDER BY 中使用别名
SELECT first_name, salary * 12 AS annual_salary
FROM employees
WHERE salary > 5000 -- 先用原始列过滤
ORDER BY annual_salary DESC; -- 再用别名排序(因为 ORDER BY 在 SELECT 之后)

总结

记住这个核心顺序:FROM/JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY → LIMIT
将 SQL 的执行顺序想象成一条流水线,数据从源头(FROM)开始,经过一道道工序(WHERE, GROUP BY 等)的加工和筛选,最终形成我们想要的产品(结果集)。理解了这个流程,你就能更清晰地思考问题,写出逻辑正确、性能更优的 SQL 查询。


SELECT 中的非聚合列必须出现在 GROUP BY 子句中,否则会报错。

HAVING 子句用于过滤聚合函数的结果(如 SUM、COUNT、AVG 等)。
g.weight < 50 是对原始列的过滤,不属于聚合条件,应该放在 WHERE 子句中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值