Hive（数据仓库）Hive 调优

最新推荐文章于 2024-08-27 23:41:00 发布

原创

最新推荐文章于 2024-08-27 23:41:00 发布 · 332 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了Hive的调优技巧，包括Fetch抓取、本地模式、MapJoin、Group By、Count(Distinct)优化、避免笛卡尔积、动态分区调整、并行执行、严格模式、JVM重用和推测执行。通过这些设置，可以显著提高Hive查询的效率和性能。

10.hive调优

10.1 Fetch抓取

Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM score;在这种情况下，Hive可以简单地读取score对应的存储目录下的文件，然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.

案例实操：

1）把hive.fetch.task.conversion设置成none，然后执行查询语句，都会执行mapreduce程序。

set hive.fetch.task.conversion=none;

select * from score;
select s_score from score;
select s_score from score limit 3;

2）把hive.fetch.task.conversion设置成more，然后执行查询语句，如下查询方式都不会执行mapreduce程序。

set hive.fetch.task.conversion=more;

select * from score;
select s_score from score;
select s_score from score limit 3;

###10.2 本地模式

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。

用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。

案例实操：

1）开启本地模式，并执行查询语句

set hive.exec.mode.local.auto=true; 
select * from score cluster by s_id;

2）关闭本地模式，并执行查询语句

set hive.exec.mode.local.auto=false; 
select * from score cluster by s_id;

###10.3 MapJoin

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会在Reduce阶段完成join,容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join

最低0.47元/天解锁文章