黑猴子的家：Hive 优化之并行执行

最新推荐文章于 2024-07-30 09:01:39 发布

原创最新推荐文章于 2024-07-30 09:01:39 发布 · 429 阅读

1 ·

CC 4.0 BY-SA版权

Hive 专栏收录该内容

91 篇文章

订阅专栏

本文讲解了如何在Hive中通过设置参数开启并发执行，提高查询效率。介绍了hive.exec.parallel和hive.exec.parallel.thread.number参数的作用，以及它们如何影响job执行速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。不过，如果有更多的阶段可以并行执行，那么job可能就越快完成。

通过设置参数hive.exec.parallel值为true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。

 //打开任务并行执行
set hive.exec.parallel=true; 

//同一个sql允许最大并行度，默认为8。
set hive.exec.parallel.thread.number=16;

当然，得是在系统资源比较空闲的时候才有优势，否则，没资源，并行也起不来。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑猴子的家

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive实现任务并行执行

qq_27552579的博客

05-18

1700

hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false. 下面是对于该参数的测试过程: 测试sql: select r1.a from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 on (r1.a=r2.b); 1 Set hive.e

Hive优化:Hive的执行计划、分桶、MapJoin、数据倾斜

最新发布

m0_70882914的博客

10-18

1453

Hive优化:Hive的执行计划、分桶、MapJoin、数据倾斜

参与评论您还未登录，请先登录后发表或查看评论

Hive性能调优之并行执行(3)

大数据梦想家

12-01

6695

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并...

Hive 的并行执行和优化器

互联网知识分享

08-06

1130

在查询中发现了聚合操作，并且聚合的列是有序的，可以通过部分聚合推导出最终的聚合结果，减少数据的读取和传输量。在查询中发现了聚合操作，并且聚合的列是有序的，可以通过部分聚合推导出最终的聚合结果，减少数据的读取和传输量。并行执行：划分好的任务被提交到集群中的多个节点上并行执行，每个节点上的任务读取和处理自己负责的数据块。通过分析查询中使用的列，只选择需要的列进行处理，减少数据的读取和传输量。通过分析查询中使用的列，只选择需要的列进行处理，减少数据的读取和传输量。将过滤条件下推到数据源，减少数据的读取和传输量。

hive优化之并行执行任务

weixin_34269583的博客

09-27

689

1、与Oracle并行技术一样，hive在执行mapreduce作业时也可以执行并行查询。针对于不同业务场景SQL语句的执行情况，有些场景下SQL的执行是需要分割成几段去执行的，而且期间并不全是存在依赖关系。默认情况下，hive只会一段一段的执行mapreduce任务。使用并行的好处在于可以让服务器可以同时去执行那些不想关的业务场景，比如：select deptno,count(1) from e...

Hive的并行执行

weixin_46039745的博客

07-28

478

不过，某个特定的 job 可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个 job 的执行时间缩短。不过，如果有更多的阶段可以并行执行，那么 job 可能就越快完成。这样的阶段可以是 MapReduce 阶段、抽样阶段、合并阶段、limit 阶段。默认情况下，Hive 一次只会执行一个阶段。不过，在共享集群中，需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。当然，得是在系统资源比较空闲的时候才有优势，否则，没资源，并行也起不来。

解决：hive用hiveserver2连接jdbc出现问题 Error: Could not open client transport with JDBC Uri:jdbc:hive2://

Andy86666的博客

11-25

1万+

解决：hive用hiveserver2连接jdbc出现问题 Error: Could not open client transport with JDBC Uri:jdbc:hive2://hadoop1:10000 在用jdbc连接hive的时候，出现下面的错误 Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000: Failed to open new session: java.lang.Ru

Hive优化以及执行原理

11-20

5. **并行执行**：Hive支持任务的并行执行，可以同时处理多个任务，提高整体效率。 6. **执行计划的动态调整**：在运行时，Hive可以基于数据分布和任务进度动态调整任务执行策略，如动态分区和推测执行。 7. **...

Hive的安装与配置——第1关：Hive的安装与配置

热门推荐

大家一起入坑

10-20

1万+

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ysxGddek-1666195111052)(D:\文件\大三上\大数据库\educoder_Hive的安装.png)]版本就说明安装成功，但是可以看到其中有一些警告信息，是由于包的冲突引起的。补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。**注意：**通过本关后，请继续完成第二关，第二关是在。注意：安装过程中会提示设置密码什么的，不要忘了设置。到该目录下，并将解压的文件重命名为。

第1关：Hive的安装与配置

qq_61604164的博客

11-24

1万+

Hive的安装与配置第1关：Hive的安装与配置

并行执行hive脚本

weixin_30470643的博客

07-25

401

1 ### 模板脚本存放路径(无需修改) 2 cd /tmp/fix_data/tmp_wjj_20180322_01 3 ### 脚本名称 4 script=tmp_wjj_20180322_01 5 ### 开始日期(包括当月/天) 6 etl_dt_start='2017-09-01' 7 ### 结束日期(不包括当月/天) 8 etl_dt_end=...

Hive调优：让任务并行执行（hive.exec.parallel）

汐朔

08-05

1万+

目录业务背景优化策略方案一方案二业务背景 extract_trfc_page_kpi的hive sql如下： set mapred.job.queue.name=pms; set hive.exec.reducers.max=8; set mapred.reduce.tasks=8; set mapred.job.name=extract_trfc_page_kpi; insert overw...

Hive优化--并行执行

tianqinglei的博客

08-22

1689

[并行执行] 只要job间不存在依赖关系。 SET hive.exec.parallel=true; //默认false //最多允许多少job并行执行 SET hive.exec.parallel.thread.number=16; //默认8

Hive并行模式详解

My_wife_QBL的博客

07-30

1468

Hive的并行模式指的是在执行查询时，将任务分解为多个子任务，利用Hadoop的分布式计算能力同时执行这些子任务。并行处理不仅提高了数据处理的速度，还增强了系统的吞吐量，能够在短时间内处理更大规模的数据集。所有的子任务执行完成后，Hive会将各个任务的结果汇总，生成最终的查询结果，返回给用户。Hive的并行模式是其核心特性之一，能够有效提高数据处理的效率和系统的吞吐量。通过合理配置并行处理参数、优化查询设计、监控和调优，用户能够充分发挥Hive的并行能力，满足大数据分析的需求。

Hive性能调优之并行执行

寒暄的博客

07-18

1604

并行执行就是用系统资源去换取执行时间。 并行执行会占用大量系统资源来加速SQL任务的执行，如果系统资源本身不多的话就不要用这个配置。 -- 开启并行执行 set hive.exec.parallel=true; -- 设置并行度，默认是8 set hive.exec.parallel.thread.number=16; ...

HIVE调优之并行执行

weixin_30716725的博客

08-27

187

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段，或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。不过，如果有更多的阶段可以并行执行，那...

Hive>并行执行和严格模式

qq_44509920的博客

12-02

559

并行执行 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。不过，如果有更多的阶段可以并行执行，那...

Hive调优:并行执行_ 严格模式_ JVM重用_推测执行

11-28

4612