Hive查询及 Hive排序

Hive查询与排序完全指南

最新推荐文章于 2025-03-28 14:24:52 发布

原创最新推荐文章于 2025-03-28 14:24:52 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

Hive 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了Hive的查询和排序操作，包括全表和特定列查询、列别名、算术运算符、常用函数、Limit语句、Where语句、比较运算符、Like和RLike、逻辑运算符、Group By、Having、Join、排序方法如Order By、Sort By、Distribute By和Cluster By等，提供了丰富的实例演示。

查询

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select

全表和特定列查询：

全表查询
select * from emp;

选择特定列查询
select empno, ename from emp;

注意：
（1）SQL 语言大小写不敏感。
（2）SQL 可以写在一行或者多行。
（3）关键字不能被缩写也不能分行。
（4）各子句一般要分行写。
（5）使用缩进提高语句的可读性。

列别名

重命名一个列。
便于计算。
紧跟列名，也可以在列名和别名之间加入关键字‘AS’
案例实操
1）查询名称和部门
hive (default)> select ename AS name, deptno dn from emp;

算术运算符

运算符	描述
A+B	A和B 相加
A-B	A减去B
A*B	A和B相乘
A/B	A除以B
A%B	A对B取余/模
A&B	A和B按位取与
`A\|B`	A和B按位取或
A^B	A和B按位取异或
~A	A按位取反

案例实操
查询出所有员工的薪水后加1显示。
hive (default)> select sal +1 from emp;

常用函数

求总行数（count）
select count(1) cnt from emp;

求工资的最大值（max）
select max(sal) max_sal from emp;

求工资的最小值（min）
select min(sal) min_sal from emp;

求工资的总和（sum）
select sum(sal) sum_sal from emp;

求工资的平均值（avg）
select avg(sal) avg_sal from emp;

Limit语句

典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。
hive (default)> select * from emp limit 5;

Where语句

使用WHERE子句，将不满足条件的行过滤掉。
WHERE子句紧随FROM子句。
案例实操
查询出薪水大于1000的所有员工
hive (default)> select ename , sal from emp where sal > 1000;

比较运算符（Between/In/ Is Null）

下面表中描述了谓词操作符，这些操作符同样可以用于JOIN…ON和HAVING语句中。

操作符	支持的数据类型	描述
A=B	基本数据类型	如果A等于B则返回TRUE，反之返回FALSE
A<=>B	基本数据类型	如果A和B都为NULL，则返回TRUE，其他的和等号（=）操作符的结果一致，如果任一为NULL则结果为NULL
A<>B, A!=B	基本数据类型	A或者B为NULL则返回NULL；如果A不等于B，则返回TRUE，反之返回FALSE
A<B	基本数据类型	A或者B为NULL，则返回NULL；如果A小于B，则返回TRUE，反之返回FALSE
A<=B	基本数据类型	A或者B为NULL，则返回NULL；如果A小于等于B，则返回TRUE，反之返回FALSE
A>B	基本数据类型	A或者B为NULL，则返回NULL；如果A大于B，则返回TRUE，反之返回FALSE
A>=B	基本数据类型	A或者B为NULL，则返回NULL；如果A大于等于B，则返回TRUE，反之返回FALSE
A [NOT] BETWEEN B AND C	基本数据类型	如果A，B或者C任一为NULL，则结果为NULL。如果A的值大于等于B而且小于或等于C，则结果为TRUE，反之为FALSE。如果使用NOT关键字则可达到相反的效果。
A IS NULL	所有数据类型	如果A等于NULL，则返回TRUE，反之返回FALSE
A IS NOT NULL	所有数据类型	如果A不等于NULL，则返回TRUE，反之返回FALSE
IN(数值1, 数值2)	所有数据类型	使用 IN运算显示列表中的值
A [NOT] LIKE B	STRING 类型	B是一个SQL下的简单正则表达式，如果A与其匹配的话，则返回TRUE；反之返回FALSE。B的表达式说明如下：‘x%’表示A必须以字母‘x’开头，‘%x’表示A必须以字母’x’结尾，而‘%x%’表示A包含有字母’x’,可以位于开头，结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。
A RLIKE B, A REGEXP B	STRING 类型	B是一个正则表达式，如果A与其匹配，则返回TRUE；反之返回FALSE。匹配使用的是JDK中的正则表达式接口实现的，因为正则也依据其中的规则。例如，正则表达式必须和整个字符串A相匹配，而不是只需与其字符串匹配。

案例实操
（1）查询出薪水等于5000的所有员工
hive (default)> select * from emp where sal =5000;

（2）查询工资在500到1000的员工信息，注意between … and 是闭区间
hive (default)> select * from emp where sal between 500 and 1000;

（3）查询comm(奖金)为空的所有员工信息
hive (default)> select * from emp where comm is null;

（4）查询工资是1500和5000的员工信息
hive (default)> select * from emp where sal IN (1500, 5000);

Like和RLike

使用LIKE运算选择类似的值
选择条件可以包含字符或数字:
% 代表零个或多个字符(任意个字符)。
_ 代表一个字符。
RLIKE子句是Hive中这个功能的一个扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件。
案例实操

（1）查找以2开头薪水的员工信息
hive (default)> select * from emp where sal LIKE '2%';
（2）查找第二个数值为2的薪水的员工信息
hive (default)> select * from emp where sal LIKE '_2%';
（3）查找薪水中含有2的员工信息
hive (default)> select * from emp where sal RLIKE '[2]';

逻辑运算符（And/Or/Not）

操作符	含义
AND	逻辑并
OR	逻辑或
NOT	逻辑否

案例实操
（1）查询薪水大于1000，部门是30
hive (default)> select * from emp where sal>1000 and deptno=30;
（2）查询薪水大于1000，或者部门是30
hive (default)> select * from emp where sal>1000 or deptno=30;
（3）查询除了20部门和30部门以外的员工信息
hive (default)> select * from emp where deptno not IN(30, 20);

分组

Group By语句

GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。
案例实操：
（1）计算emp表每个部门的平均工资
hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;
（2）计算emp每个部门中每个岗位的最高薪水
hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t group by t.deptno, t.job;

Having语句

having与where不同点
（1）where针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。
（2）where后面不能写分组函数，而having后面可以使用分组函数。
（3）having只用于group by分组统计语句。

案例实操：
（1）求每个部门的平均薪水大于2000的部门
求每个部门的平均工资
hive (default)> select deptno, avg(sal) from emp group by deptno;
求每个部门的平均薪水大于2000的部门
hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

Join语句

等值Join

Hive支持通常的SQL JOIN语句，但是只支持等值连接，不支持非等值连接。
案例实操
（1）根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门编号；
hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;
同样与
select e.empno,e.ename,d.deptno,d.dname from emp e,dept d where e.deptno=d.deptno;

表的别名

好处
（1）使用别名可以简化查询。
（2）使用表名前缀可以提高执行效率。

案例实操
合并员工表和部门表
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;

内连接

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;*

左外连接

左外连接：JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

右外连接

右外连接：JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。
hive (default)> select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

满外连接

满外连接：将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用NULL值替代。
hive (default)> select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

多表连接

注意：连接 n个表，至少需要n-1个连接条件。例如：连接三个表，至少需要两个连接条件。

创建位置表
create table if not exists location(
loc int,
loc_name string
)
row format delimited fields terminated by ‘\t’;

导入数据
hive (default)> load data local inpath ‘/opt/module/datas/location.txt’ into table default.location;

多表连接查询distinct
hive (default)>SELECT e.ename, d.deptno, l. loc_name
FROM emp e
JOIN dept d
ON d.deptno = e.deptno
JOIN location l
ON d.loc = l.loc;
大多数情况下，Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作，然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。
注意：为什么不是表d和表l先进行连接操作呢？这是因为Hive总是按照从左到右的顺序执行的。

笛卡尔积（hive默认不支持）

笛卡尔集会在下面条件下产生:
（1）省略连接条件
（2）连接条件无效
（3）所有表中的所有行互相连接

案例实操
hive (default)> select empno, deptno from emp, dept;
FAILED: SemanticException Column deptno Found in more than One Tables/Subqueries

连接谓词中不支持or

hive (default)> select e.empno, e.ename, d.deptno from emp ejoin dept d on e.deptno = d.deptno or e.ename=d.ename; 错误的

排序

全局排序（Order By）

Order By：全局排序，一个MapReduce

使用 ORDER BY 子句排序
ASC（ascend）: 升序（默认）
DESC（descend）: 降序

ORDER BY 子句在SELECT语句的结尾。
案例实操
（1）查询员工信息按工资升序排列
hive (default)> select * from emp order by sal;
（2）查询员工信息按工资降序排列
hive (default)> select * from emp order bysal desc;

按照别名排序

按照员工薪水的2倍排序
hive (default)> select ename, sal*2 twosal from emp order by twosal;

多个列排序
按照部门和工资升序排序
hive (default)> select ename, deptno, sal from emp order by deptno, sal ;
注：这个是先按部门号排序，部门号相同，按薪水升序排序

每个MapReduce内部排序（Sort By）

Sort By：每个MapReduce内部进行排序，分区规则按照key的hash来运算，（区内排序）对全局结果集来说不是排序
设置reduce个数
hive (default)> set mapreduce.job.reduces=3;

查看设置reduce个数
hive (default)> set mapreduce.job.reduces;

根据部门编号降序查看员工信息
hive (default)> select * from emp sort by empno desc;

将查询结果导入到文件中（按照部门编号降序排序）
hive (default)> insert overwrite local directory ‘/opt/module/datas/emp.txt’ row format delimited fields terminated by ‘\t’ select * from emp sort by deptno desc;

分区排序（Distribute By）

**Distribute By：类似MR中partition，进行分区，结合sort by使用。
注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。
对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。
**
案例实操：
（1）先按照部门编号分区，再按照员工编号降序排序。
hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory ‘/opt/module/datas/distribute-result’ row format delimited fields terminated by ‘\t’ select * from emp distribute by deptno sort by empno desc;

Cluster By

当distribute by和sorts by字段相同时，可以使用cluster by方式。
cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC或者DESC。
（1）以下两种写法等价
hive (default)> insert overwrite local directory ‘/root/emp3’ row format delimited fields terminated by ‘\t’ select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;
注意：按照部门编号分区，不一定就是固定死的数值，可以是20号和30号部门分到一个分区里面去。