一些高阶SQL的技巧

迷路的小犀牛

于 2025-02-25 17:47:53 发布

阅读量1k

点赞数 34

文章标签： sql

本文链接：https://blog.youkuaiyun.com/weixin_44259212/article/details/145858714

版权

高阶SQL技巧

在日常的SQL操作中，很多简单的查询我们都可以通过基础的SQL语法来完成。然而，在面对复杂数据集、性能优化或者高效数据提取时，高阶SQL技巧就显得尤为重要。本文将介绍一些高阶的SQL技巧，帮助你提升SQL查询的效率和可读性。

1. 使用窗口函数（Window Functions）

窗口函数是SQL中非常强大的功能，它允许我们在查询结果集的每一行上执行计算，同时不需要将数据分组。常用的窗口函数包括 ROW_NUMBER(), RANK(), DENSE_RANK(), NTILE() 和聚合函数如 SUM(), AVG() 等，配合 OVER() 子句使用。

1.1 示例：ROW_NUMBER() 和 PARTITION BY

假设有一个 sales 表，记录了销售人员的销售情况，字段包括 sales_person_id、amount 和 date。

SELECT
    sales_person_id,
    amount,
    ROW_NUMBER() OVER (PARTITION BY sales_person_id ORDER BY date DESC) AS row_num
FROM
    sales;

该查询为每个销售人员的销售记录按日期降序排序，并给每条记录分配一个唯一的行号。

1.2 示例：计算累计销售额

SELECT
    sales_person_id,
    amount,
    SUM(amount) OVER (PARTITION BY sales_person_id ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumulative_sales
FROM
    sales;

该查询计算每个销售人员的累计销售额，从其所有销售记录中汇总。

2. 使用CTE（Common Table Expressions）

CTE 是一个临时结果集，它在 SELECT, INSERT, UPDATE 或 DELETE 语句执行期间可被引用。CTE 可以使查询更具可读性和可维护性，特别是当你需要进行递归查询时，CTE 是必不可少的。

2.1 示例：使用 CTE 简化复杂查询

WITH recent_sales AS (
    SELECT sales_person_id, amount, date
    FROM sales
    WHERE date > '2024-01-01'
)
SELECT
    sales_person_id,
    SUM(amount) AS total_sales
FROM
    recent_sales
GROUP BY
    sales_person_id;

该查询首先使用 CTE 从 sales 表中提取2024年1月1日之后的销售数据，然后对其进行汇总。

2.2 示例：递归查询

假设我们有一个 employee 表，包含 id, manager_id 和 name 字段，表示员工与其上级之间的关系。我们可以通过递归查询找出一个特定员工及其所有上级。

WITH RECURSIVE hierarchy AS (
    SELECT id, manager_id, name
    FROM employee
    WHERE id = 1  -- 假设我们从员工id=1开始
    UNION ALL
    SELECT e.id, e.manager_id, e.name
    FROM employee e
    INNER JOIN hierarchy h ON e.id = h.manager_id
)
SELECT * FROM hierarchy;

该查询使用递归查询从员工ID为1的员工开始，逐级查询所有上级。

3. 子查询的高级用法

子查询是嵌套在其他查询中的查询。除了基本的子查询，我们还可以使用 EXISTS、IN、ANY 等更高级的子查询技巧。

3.1 示例：使用 EXISTS 优化查询

EXISTS 通常用于检查是否存在满足某条件的记录，而不像 IN 那样返回实际的值集合。因此，EXISTS 通常在处理大量数据时性能更优。

SELECT sales_person_id, amount
FROM sales s
WHERE EXISTS (
    SELECT 1
    FROM employees e
    WHERE e.sales_person_id = s.sales_person_id
    AND e.active = 1
);

该查询只返回有激活状态的销售人员的销售记录。

3.2 示例：避免 IN 子查询带来的性能问题

SELECT *
FROM products
WHERE category_id IN (
    SELECT category_id
    FROM categories
    WHERE status = 'active'
);

如果子查询返回的数据量很大，IN 操作可能会影响查询性能。为了优化性能，可以将子查询改为 JOIN。

SELECT p.*
FROM products p
JOIN categories c ON p.category_id = c.category_id
WHERE c.status = 'active';

通过使用 JOIN，可以避免 IN 子查询的性能瓶颈。

4. 高效的查询优化技巧

4.1 使用 JOIN 代替多个 OR 条件

当查询中涉及多个 OR 条件时，可以使用 JOIN 来提高效率。

SELECT *
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
WHERE o.order_status = 'shipped'
AND (c.country = 'USA' OR c.country = 'Canada');

通过将 OR 条件改为 JOIN 操作，通常能提高查询的执行效率，特别是在数据量较大的时候。

4.2 使用 LIMIT 限制查询结果

在需要分页显示或仅提取部分数据时，可以使用 LIMIT 进行优化，避免一次性提取过多数据。

SELECT *
FROM products
ORDER BY price DESC
LIMIT 10;

该查询返回价格最高的前10个产品。LIMIT 是分页查询时常用的技巧。

4.3 使用 EXPLAIN 分析查询执行计划

EXPLAIN 语句帮助你查看查询的执行计划，可以帮助你优化查询的性能。

EXPLAIN SELECT * FROM orders WHERE order_date > '2024-01-01';

EXPLAIN 会返回查询的执行计划，告诉你数据库如何执行查询（如是否使用了索引、全表扫描等）。

5. 聚合函数与分组技巧

聚合函数如 COUNT(), SUM(), AVG(), MAX(), MIN() 等，在处理大量数据时非常有用。通过 GROUP BY 子句可以对结果进行分组。

5.1 示例：分组并计算每组的最大值

SELECT department, MAX(salary) AS highest_salary
FROM employees
GROUP BY department;

该查询返回每个部门的最高薪水。

5.2 示例：分组后排序

SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department
ORDER BY avg_salary DESC;

该查询返回每个部门的平均薪水，并按薪水从高到低排序。