Hive Sql优化之一次from查询多次insert into操作

原创已于 2023-04-27 17:51:25 修改 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sql #大数据

于 2023-04-23 18:28:36 首次发布

文章介绍了两种HiveSQL的优化方法。一是通过一次from查询执行多次insertinto操作，以减少map操作，提高效率，例如在统计字段空值率的场景中。二是使用groupingsets代替union，简化多维统计的编写，提高查询性能。这两种方式能有效提升Hive查询的效率。

Hive Sql优化

- *一次from查询多次insert into操作*
- 使用grouping sets代替union的SQL优化

一次from查询多次insert into操作

例：统计字段空值率

优化点：一次map多个reduce，有效节省了map操作
流程如下：
1.创建表；
2.插入数据；
3.参照下面语句；

--创建student表
CREATE EXTERNAL TABLE IF NOT EXISTS STUDENT(
	s_no string comment '学号',
	s_name string comment '姓名',
	s_birth string comment '生日',
	s_age bigint comment '年龄',
	s_sex string comment '性别',
)

--创建统计空置率表
CREATE EXTERNAL TABLE IF NOT EXISTS STUDENT_COUNT(
ID STRING COMMENT  '字段名称',
COUNT STRING COMMENT  '数据累加'
NULL_RATE  DOUBLE  '空值率'
)

--清空表数据
truncate table student_count;
--插入数据
--年龄大于16学生的姓名和生日的空置率；
from (select * from student where s_age > 16) a
insert into student_count select 's_name ' id ,count(1) count,count(s_name )/count(1) as null_rate
insert into student_count select 's_birth ' id ,count(1) count,count(s_birth )/count(1) as null_rate;

使用grouping sets代替union的SQL优化

--grouping sets等操作时，用union关键词来构建多维统计的方式
--改写前的代码段
select * from(
select s_age,s_sex,count(1) num
from student_tb_orc
group by s_age,s_sex
union all
select s_age,null s_sex,count(1) num
from student_tb_orc
group by s_age
) a
--改写后的代码段
select s_age,s_sex,count(1) num
from student_tb_orc
group by s_age,s_sex
grouping sets((s_age),(s_age,s_sex))