Hive查询语言(HiveQL)

最新推荐文章于 2025-12-03 20:57:58 发布

原创

最新推荐文章于 2025-12-03 20:57:58 发布 · 6.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#Hive #SQL

本文详细介绍了Hive的数据仓库工具特性，包括GROUP BY、JOIN、MAPJOIN、ORDER BY、DISTRIBUTE BY和SORT BY等操作。通过实例解析了各种查询语句的工作原理和注意事项，如JOIN操作类型、MAPJOIN的内存加载、ORDER BY的全局排序以及DISTRIBUTE BY与GROUP BY、SORT BY的区别。还探讨了如何解决数据倾斜和优化查询效率。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

GROUP BY

按照某些字段的值进行分组，有相同值放到一起

SELECT col1 [,col2] ,count(1),sel_expr（聚合操作）
FROM table
WHERE condition         -->Map端执行
GROUP BY col1 [,col2]   -->Reduce端执行
[HAVING]                -->Reduce端执行

从表中读取数据，执行where条件，以col1列分组，把col1列的内容作为key，其他列值作为value，上传到reduce，在reduce端执行聚合操作和having过滤。

常用聚合操作

1. count:计数