MySQL 中 GROUP BY 与 HAVING 子句深度解析：从基础到高性能实践

最新推荐文章于 2025-11-22 22:42:59 发布

原创最新推荐文章于 2025-11-22 22:42:59 发布 · 1.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#mysql #数据库

MySQL 深度探索专栏收录该内容

21 篇文章

订阅专栏

在数据分析的世界里，分组与筛选是永恒的主题。掌握 MySQL 的 GROUP BY 和 HAVING，意味着你拿到了数据聚合分析的钥匙。

1. 基础概念：为什么需要分组？

在数据库查询中，我们经常需要对数据进行汇总统计和分类分析。想象一下，你有一个销售记录表，需要回答以下问题：

每个产品类别的总销售额是多少？
哪些类别的平均销售额超过了 1000 元？
每月销售最好的产品是哪些？

这些问题的共同点就是：需要先分组，后计算。这就是 GROUP BY 和 HAVING 的用武之地。

2. GROUP BY 深度解析

2.1 基本语法与语义

SELECT column1, aggregate_function(column2)
FROM table_name
GROUP BY column1, column2, ...;

核心理解：GROUP BY 将数据按照指定列的值进行分组，每个唯一的值组合形成一个分组，然后在每个分组内进行聚合计算。

2.2 创建示例数据环境

让我们通过一个完整的电商案例来深入学习：

-- 创建销售记录表
CREATE TABLE sales (
    id INT PRIMARY KEY AUTO_INCREMENT,
    product_name VARCHAR(100) NOT NULL,
    category VARCHAR(50) NOT NULL,
    sale_amount DECIMAL(12,2) NOT NULL,
    sale_date DATE NOT NULL,
    region VARCHAR(50) NOT NULL,
    customer_id INT
);

-- 插入丰富的示例数据
INSERT INTO sales (product_name, category, sale_amount, sale_date, region, customer_id) VALUES
('MacBook Pro', 'Electronics', 18999.00, '2024-01-15', 'North', 1001),
('iPhone 15', 'Electronics', 6999.00, '2024-01-15', 'North', 1002),
('Office Desk', 'Furniture', 1200.00, '2024-01-16', 'South', 1003),
('MacBook Pro', 'Electronics', 18999.00, '2024-01-17', 'East', 1004),
('Ergonomic Chair', 'Furniture', 800.00, '2024-01-18', 'West', 1005),
('iPhone 15', 'Electronics', 6999.00, '2024-01-19', 'North', 1006),
('Standing Desk', 'Furniture', 2000.00, '2024-01-20', 'South', 1007),
('iPad Air', 'Electronics', 4999.00, '2024-02-01', 'East', 1008),
('Office Desk', 'Furniture', 1200.00, '2024-02-02', 'West', 1009),
('MacBook Pro', 'Electronics', 18999.00, '2024-02-03', 'North', 1010);

2.3 单列分组实战

-- 按产品类别统计销售总额和平均销售额
SELECT 
    category,
    COUNT(*) as sale_count,           -- 销售次数
    SUM(sale_amount) as total_sales,  -- 销售总额
    AVG(sale_amount) as avg_sale,     -- 平均销售额
    MAX(sale_amount) as max_sale,     -- 最高销售额
    MIN(sale_amount) as min_sale      -- 最低销售额
FROM sales
GROUP BY category;

执行结果：

| category   | sale_count | total_sales | avg_sale | max_sale | min_sale |
|------------|------------|-------------|----------|----------|----------|
| Electronics| 5          | 56995.00    | 11399.00 | 18999.00 | 4999.00  |
| Furniture  | 4          | 5200.00     | 1300.00  | 2000.00  | 800.00   |

2.4 多列分组：多维数据分析

-- 按类别和地区进行多维分组统计
SELECT 
    category,
    region,
    COUNT(*) as sale_count,
    SUM(sale_amount) as total_sales,
    AVG(sale_amount) as avg_sale
FROM sales
GROUP BY category, region
ORDER BY category, total_sales DESC;

执行结果：

| category   | region | sale_count | total_sales | avg_sale  |
|------------|--------|------------|-------------|-----------|
| Electronics| North  | 3          | 32997.00    | 10999.00  |
| Electronics| East   | 2          | 23998.00    | 11999.00  |
| Furniture  | South  | 2          | 3200.00     | 1600.00   |
| Furniture  | West   | 2          | 2000.00     | 1000.00   |

3. HAVING 子句：分组后的智能过滤器

3.1 HAVING 与 WHERE 的本质区别

这是一个很多初学者容易混淆的概念，让我们通过对比来理解：

特性	WHERE	HAVING
执行时机	在分组前执行	在分组后执行
操作对象	原始数据行	分组后的结果集
可使用聚合函数	不可以	可以
性能影响	先过滤可减少分组数据量	对已分组的数据进行过滤

3.2 HAVING 实战应用

-- 找出总销售额超过 10000 的类别
SELECT 
    category,
    SUM(sale_amount) as total_sales,
    COUNT(*) as transaction_count
FROM sales
GROUP BY category
HAVING total_sales > 10000;

-- 找出平均销售额大于 5000 且交易次数超过 2 次的类别
SELECT 
    category,
    AVG(sale_amount) as avg_sale,
    COUNT(*) as transaction_count
FROM sales
GROUP BY category
HAVING avg_sale > 5000 AND transaction_count > 2;

-- 按月统计，找出月销售额超过 20000 的月份
SELECT 
    DATE_FORMAT(sale_date, '%Y-%m') as sale_month,
    SUM(sale_amount) as monthly_sales,
    COUNT(DISTINCT customer_id) as unique_customers
FROM sales
GROUP BY sale_month
HAVING monthly_sales > 20000;

4. 高级技巧与性能优化

4.1 WHERE + HAVING 组合优化

黄金法则：能用 WHERE 过滤的，绝不用 HAVING！

-- 不推荐的写法：所有数据都参与分组
SELECT category, AVG(sale_amount) as avg_sale
FROM sales
GROUP BY category
HAVING sale_date >= '2024-02-01';

-- 推荐的优化写法：先过滤再分组
SELECT category, AVG(sale_amount) as avg_sale
FROM sales
WHERE sale_date >= '2024-02-01'
GROUP BY category;

4.2 分组字段选择与索引优化

-- 为分组字段创建索引
CREATE INDEX idx_category ON sales(category);
CREATE INDEX idx_category_region ON sales(category, region);
CREATE INDEX idx_date_category ON sales(sale_date, category);

-- 使用覆盖索引优化查询
EXPLAIN SELECT category, COUNT(*) 
FROM sales 
GROUP BY category;

4.3 复杂业务场景实战

场景1：销售排行榜

-- 找出每个类别中销售额前2名的产品
SELECT 
    category,
    product_name,
    SUM(sale_amount) as total_sales,
    COUNT(*) as sale_count
FROM sales
GROUP BY category, product_name
HAVING total_sales > 0
ORDER BY category, total_sales DESC;

场景2：客户价值分析

-- RFM 分析：找出高价值客户
SELECT 
    customer_id,
    COUNT(*) as frequency,           -- 购买频率
    SUM(sale_amount) as monetary,    -- 购买金额
    DATEDIFF('2024-02-28', MAX(sale_date)) as recency  -- 最近购买时间
FROM sales
WHERE customer_id IS NOT NULL
GROUP BY customer_id
HAVING frequency >= 2 AND monetary > 10000
ORDER BY monetary DESC;

场景3：区域销售分析

-- 分析各区域对各类别销售的贡献度
SELECT 
    region,
    category,
    SUM(sale_amount) as region_category_sales,
    ROUND(
        SUM(sale_amount) * 100.0 / SUM(SUM(sale_amount)) OVER(PARTITION BY region),
        2
    ) as category_ratio_in_region
FROM sales
GROUP BY region, category
HAVING region_category_sales > 0
ORDER BY region, category_ratio_in_region DESC;

5. 常见陷阱与最佳实践

5.1 SQL 模式陷阱

-- 在 ONLY_FULL_GROUP_BY 模式下，这是错误的！
SELECT product_name, category, AVG(sale_amount)
FROM sales
GROUP BY category;

-- 正确写法：所有非聚合列都必须在 GROUP BY 中
SELECT product_name, category, AVG(sale_amount)
FROM sales
GROUP BY product_name, category;

-- 或者使用 ANY_VALUE()
SELECT ANY_VALUE(product_name), category, AVG(sale_amount)
FROM sales
GROUP BY category;

5.2 性能优化实践

分组前尽量缩小数据范围：

-- 好的实践
SELECT category, COUNT(*)
FROM sales
WHERE sale_date BETWEEN '2024-01-01' AND '2024-01-31'
  AND region IN ('North', 'South')
GROUP BY category;

-- 避免：先分组再过滤大量数据
SELECT category, COUNT(*)
FROM sales
GROUP BY category
HAVING COUNT(*) > 100;  -- 这个无法在分组前优化

合理使用索引：

-- 复合索引的顺序很重要
CREATE INDEX idx_group_optimize ON sales(category, sale_date, region);

6. 真实业务场景综合案例

电商月度经营分析报告

-- 生成月度经营分析报告
SELECT 
    DATE_FORMAT(sale_date, '%Y-%m') as report_month,
    COUNT(DISTINCT customer_id) as active_customers,
    COUNT(*) as total_orders,
    SUM(sale_amount) as gross_revenue,
    AVG(sale_amount) as avg_order_value,
    COUNT(DISTINCT product_name) as unique_products,
    
    -- 各类别销售占比
    ROUND(SUM(CASE WHEN category = 'Electronics' THEN sale_amount ELSE 0 END) * 100.0 / SUM(sale_amount), 2) as electronics_ratio,
    ROUND(SUM(CASE WHEN category = 'Furniture' THEN sale_amount ELSE 0 END) * 100.0 / SUM(sale_amount), 2) as furniture_ratio,
    
    -- 复购率分析
    COUNT(DISTINCT CASE WHEN customer_count > 1 THEN customer_id END) as repeat_customers
    
FROM sales
LEFT JOIN (
    SELECT customer_id, COUNT(*) as customer_count
    FROM sales 
    WHERE customer_id IS NOT NULL
    GROUP BY customer_id
) cust_stats ON sales.customer_id = cust_stats.customer_id

GROUP BY report_month
HAVING gross_revenue > 0
ORDER BY report_month DESC;