Hive 中 group by 和 distinct的区别_hive distinct-优快云博客

在 Hive 中，GROUP BY 和 DISTINCT 都可用于去重或聚合，但实现机制不同、适用场景不同、性能也不同。在大多数情况下，GROUP BY 的效率更高，尤其是在需要配合聚合函数或处理大数据量时。

特性	`GROUP BY`	`DISTINCT`
用途	按字段分组，通常配合聚合函数（如 `COUNT`, `SUM`）	对 SELECT 列整体去重
语法	`SELECT col1, COUNT(*) FROM t GROUP BY col1;`	`SELECT DISTINCT col1 FROM t;`
执行阶段	在 Reduce 阶段完成分组和聚合	本质是 `GROUP BY` 所有 SELECT 字段的简写
优化支持	支持倾斜优化（`hive.groupby.skewindata`）、向量化等	优化空间小，底层仍转为 `GROUP BY`

🔍 关键事实：Hive 在底层会将 SELECT DISTINCT a, b 自动转换为 SELECT a, b FROM t GROUP BY a, b。

-- 写法1
SELECT DISTINCT user_id FROM logs;

-- 写法2
SELECT user_id FROM logs GROUP BY user_id;

✅ 两者执行计划几乎相同，性能接近。
但 GROUP BY 可额外开启优化：

SET hive.groupby.skewindata=true;  -- 处理数据倾斜

而 DISTINCT 无法直接使用这些参数。

-- 需求：统计每个用户的订单数（天然用 GROUP BY）
SELECT user_id, COUNT(order_id) FROM orders GROUP BY user_id;

-- 若强行用 DISTINCT（无法实现！）
-- ❌ 无法同时返回 user_id 和 count

✅ GROUP BY 是唯一选择，且可结合 Map 端预聚合优化：

SET hive.map.aggr=true;  -- Mapper 先局部聚合，减少 Shuffle 数据量

SELECT DISTINCT dept, city FROM employees;
-- 等价于
SELECT dept, city FROM employees GROUP BY dept, city;

✅ 两者一样，但 GROUP BY 更清晰，且便于后续扩展（如加 HAVING）。

-- 反模式：大表上直接 COUNT(DISTINCT)
SELECT COUNT(DISTINCT user_id) FROM huge_table;

⚠️ 问题：

✅ 优化方案：改写为 GROUP BY + COUNT

-- 两阶段聚合（推荐）
SELECT COUNT(*) FROM (
  SELECT user_id FROM huge_table 
  GROUP BY user_id
) t;

💡 Hive 3.0+ 对 COUNT(DISTINCT) 有自动优化（近似或分阶段），但仍建议手动拆分。

DISTINCT 本质是 GROUP BY 的语法糖，在 Hive 中性能相当或略差；而 GROUP BY 更灵活、可优化、支持聚合，是生产环境的首选。尤其对于 COUNT(DISTINCT)，应主动改写为子查询 + GROUP BY 避免性能灾难。

开启优化参数：

SET hive.groupby.skewindata=true;   -- 防倾斜
SET hive.map.aggr=true;             -- Map 端预聚合

Hive 中 group by 和 distinct的区别