hive的优化

最新推荐文章于 2025-06-19 21:09:36 发布

原创最新推荐文章于 2025-06-19 21:09:36 发布 · 411 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #数据仓库 #hiveql #大数据 #linux

hive 专栏收录该内容

1 篇文章

订阅专栏

Hive的优化处理

首先hive和mysql都是explain+代码查看执行计划，这样就可以查看执行顺序。

一个hive任务会包含一个或者多个stage（阶段），不同的stage之间存在着依赖关系，越复杂的查询就会引入越多的stage，而通常stage就需要越多的时间完成任务。

一个stage可以是一个mapreduce任务，也可以是一个抽样阶段，或者一个limit阶段，以及hive需要的其他任务中的某一个阶段。

默认情况下，hive会一次只执行一个stage

有关hive的优化

1.对limit进行配置；

执行limit语句时需要执行整个查询语句，返回部分结果。这种情况通常是浪费的，所以我们应该尽可能避免使用limit，来避免这种情况。在hive中有一个配置属性可以开启。开启之后，当使用limit时，其可以对源数据进行抽样。

如果将hive.limit.optimize.enable值设置为true的话，那么有两个参数控制这个操作，

hive.limit.row.max.size和hive.limit.optimize.limti.file

缺点，有可能输入中有用的数据永远不会被处理到，如果需要reduce步骤查询时，如jion和group by操作，以及聚合函数大多调用，会产生不同的结果。也许这个差异在很多情况下是可以接受。

2.Join优化：详解6.4.2---6.4.9（hive权威指南）

首先我们需要知道哪个表是最大大，把最大的表放在右边，或者可以使用streamtable（table_name）直接指出

如果一个表足够的小，是可以完全载入到内存中的，那么这时hive可以执行一个map-side join ，这样可以减少reduce过程。有事甚至可以减少某些map task任务，有时候即使某些表不适合放入内存中，我们依然可以使用mapJOIN,因为减少ruduce阶段可能将不太大的表发到每个map task中带来更多好处。

3.使用本地模式

对于hadoop job是需要提供完整的hadoop可扩展性来处理大数据集的。不过有时候hive的输入数据量是比较小的，在这种情况下，为查询触发执行任务的时间可能会比实际的job的执行时间要多的多，，对于大多数这样的情况，我们可以开启hive本地模式在单台机器上（或某些时候在单个进程中）处理所有的任务，对于小数集时间明显被缩短。

临时启用

通过设置hive.exec.mode.local.auto的值为true，来让hive在适当的时候自动启用这个优化，我们可以将这个放在home下的.hiverc文件中，通过命令hive -i先执行。

如果我们需要每一个hive都本地执行的话，我们在config中的hive-site.xml中加入

4.并行执行

Hive会将查询转化成一个或者多个阶段。这样的阶段可以是mapreudce阶段，抽样阶段，合并阶段，limit阶段，或者hive过程需要其他阶段，默认情况下hive一次只执行一个阶段。不过某些特定情况下，一个job任务中可能包含多个阶段，而这些阶段可能并非完全互相依赖的，也就是说这些阶段是可以并行执行的。这样使得job执行时间缩短。如果有更多阶段可以并行执行的话，那么job就能很快完成。

通过设置hive.exce.parallel值为true，就可以开启并发执行了。但是共享集群中，job并发执行阶段增多的话，集群的利用率也会增高。

5.严格模式

Hive提供了一个严格模式，可防止用户执行那些产生意想不到的不好影响的查询
通过设置hive.mapred.mode 值为stract可以禁止三种查询。
禁止的三种查询
对于分表区中，除非where语句中含有分区字段过滤条件来限制数据范围，否则不允许执行，原因是不加限制的话会扫描所有的分区，数据集大，执行任务耗费的资源令人不可接受
对于order by语句查询，要求必须使用limit语句，因为order by为了执行排序过程会将所有的结果数据分发到同一个reducer中进行处理，强制要求用户增加limit限制可以防止reducer额外执行很长一段时间。
限制笛卡尔积的查询，在关系型数据库中，对于join使用的是where而不是on语句。这样关系型数据库中的执行优化器就可以将where语句转化为那个on语句。Hive中不会执行这种优化。如果表足够大，查询会出现不可控的的情况。因此我们使用join on而不是join where

6.调整mapper和reducer个数

Hive通过查询划分为一个或者多个mapreduce任务达到并行的目的。每个任务都可能具有多个mapper和reducer任务。其中有一些是可以并行执行的。确定最佳的mapper和reducer个数取决于变量，比如输入多个数据量大小以及对这些数据操作类型等
保持mapper和reudcer个数平衡性很重要，如果mapper和reudcer任务过多的话，就会导致启动阶段、调度、运行job过程过度开销；而如果任务较少的话那么就可能没有利用好共享集群的并行性。
1. Hive是通过数据量大小来确定reduce个数的。我们可以通过dfs -count命令来计算输入量大小，这个命令和linux中的du -s命令类似。其可以计算制定目录下所有数据的总大小
2. 当执行hive查询是具有reduce过程时，cli控制台会打印reduce个数，通常有group by的查询语句会有reduce过程，与此相反，很多查询只需要map阶段的任务。
属性hive.exce.reducers.bytes.per.reducer的值默认是1GB，如果将这个值设置为750M的话，那么就会使用4个reducer。
- 默认通常是比较合适的，有些情况下，map阶段产生的数据会比实际输入的数据量要多那么根据输入数据量来确定的reducer个数就显得有些少了，同样，map阶段有可能过滤输入数据很大一部分，这时候所需的reducer个数较少。
- 快速验证方式是将reducer个数设置为固定值。而无需通过hive来计算。Hive默认的erducer个数为3，可以通过设置mapred.reduce.task的值为不同的值来确定reducer个数是多了还是少了。这种方式也会收外部因素影响。当如果执行大的job任务时，需要设置hive.exce.reduce.max就显得很重要，因为Hadoop集群给map和reduce提供的资源个数是国定的。如果某个job任务过大，消耗了所有的资源，而导致其他job无法进行，通过设置该属性可以组织某个查询消耗太多的reduce资源，我们有必要将这个属性下载config下的hive-site.xml文件中。

7.jvm的重用机制

Jvm重用是hadoop的调优参数，但对于hive的调优也同样重要，特别对于一些很难避免的小文件场景或者task特别多的场景，这类场景执行任务的时间比较短。
Hadoop的默认配置通常是使用派生jvm来执行map和reduce任务的。这好似jvm的启动过程可能会造成相当大的开销，尤其是执行的job包含有成百上千个task任务的情况，JVM重用可以使得jvm实例在同一个job中重新使用N次，N的值可以在hadoop的mapred-site.xml文件中设置mapred.job.reuse.jvm.num.tasks的值
这个功能的缺点：开启jvm重用将会一直占用使用到的task插槽，以便进行重用，指导任务完成后才能释放。如果某个“不平衡”的job中有某几个reduce task执行的时间要比其他reduce task消耗的时间要多的多的话，那么保留的插槽会一直空空闲着，无法被其他job任务使用，直到所有的task都结束之后才释放。

8.索引

索引可以加快含有group by语句的查询计算进度

9.动态分区调整

Hive通过配置限制动态分区插入允许所创建的分区数在1000个左右，虽然太多区对表不好。但通常将这个值设置的更大，以便这些查询执行。
在设置严格模式的时候，必须保证有一个分区是静态的，然后增加一些相关属性来设置所允许创建最大动态分区的个数

还有一个属性用来控制Datanode上一次性可以打开文件的个数，这个参数必须设置在hadoop中的conf下的hdfs-site.xml文件中，这个值会影响到最大的线程数和资源数。所以推荐这个值不要设置过大

10.推测执行

推测执行是hadoop中的一个功能，起可以触发执行一些重复的任务（task），虽然这样会对重复的数据进行计算而导致消耗更多的资源，不过这个功能的目的是通过加快获取单个task的结果以及侦测将执行慢的tasktracker加入到黑名单的方式来提升整体的任务执行效率
Hadoop中的推测执行由两个置顶配置项控制