Hive优化

本文详细探讨了Hive的优化策略,包括慎用API以避免数据倾斜,自定义UDAF函数优化,合理设置MapReduce任务数量以平衡计算资源,小文件合并优化,以及SQL查询的多种优化技巧,如列裁剪、分区裁剪、巧妙处理JOIN和UNION ALL等,以提升Hive在大数据处理中的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 概述

1.1 hive的特征

  1. 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;
  2. 它可以使已经存储的数据结构化;
  3. 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件;
  4. Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;
  5. 它提供类似sql的查询语句HiveQL对数据进行分析处理;
  6. 数据的存储格式有多种,比如数据源是二进制格式,普通文本格式等等;

1.2 hive的优势

  hive强大之处不要求数据转换成特定的格式,而是利用hadoop本身InputFormat API来从不同的数据源读取数据,同样地使用OutputFormat API将数据写成不同的格式。所以对于不同的数据源,或者写出不同的格式就需要不同的对应的InputFormat和OutputFormat类的实现。以stored as textFile为例,其在底层java API中表现是输入InputFormat格式:TextInputFormat以及输出OutputFormat格式:HiveIgnoreKeyTextOutputFormat。这里InputFormat中定义了如何对数据源文本进行读取划分,以及如何将切片分割成记录存入表中。而OutputFormat定义了如何将这些切片写回到文件里或者直接在控制台输出。

  Hive拥有统一的元数据管理,所以和Spark、Impala等SQL引擎是通用的。通用是指,在拥有了统一的metastore之后,在Hive中创建一张表,在Spark/Impala中是能用的;反之在Spark中创建一张表,在Hive中也是能用的,只需要共用元数据,就可以切换SQL引擎,涉及到了Spark sql和Hive On Spark。

  不仅如此Hive使用SQL语法,提供快速开发的能力,还可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展,避免了去写mapreducce,减少开发人员的学习成本。Hive中不仅可以使用逗号和制表符分隔值(CSV/TSV)文本文件,还可以使用Sequence File、RC、ORC、Parquet(知道这几种存储格式的区别)。当然Hive还可以通过用户来自定义自己的存储格式,基本上前面说到几种格式完全够了。Hive旨在最大限度地提高可伸缩性(通过向Hadoop集群动态田间更多机器扩展),性能,可扩展性,容错性以及与其输入格式的松散耦合。

  数据离线处理,比如日志分析,海量数据结构化分析。

2. Hive函数

Hive的SQL还可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。

UDF、UDAF、UDTF的区别:

  • UDF(User-Defined-Function)一进一出
  • UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出
  • UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()

3. Hive优化

3.1 慎用api

 我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。

3.2 自定义UDAF函数优化

  sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端汇总合并优化,是数据倾斜不成问题。

3.3 设置合理的map reduce的task数量

3.3.1 map阶段优化

mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1B
mapred.max.split.size: 指的是数据的最大分割单元大小;max的默认值是256MB
通过调整max可以起到调整map数的作用,减小max可以增加map数,增大max可以减少map数。
需要提醒的是,直接调整mapred.map.tasks这个参数是没有效果的。

 举例:

  a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128M的块和1个12M的块),从而产生7个map书;

  b) 假设input目录下有3个文件a,b,c,大小分别为10M,20M,130M,那么hadoop会分隔成4个块(10M,20M,128M,2M),从而产生4个map数;

  注意:如果文件大于块大小(128M),那么会拆分,如果小于块大小,则把该文件当成一个块。

  其实这就涉及到小文件的问题:如果一个任务有很多小文件(远远小于块大小128M),则每个小文件也会当做一个块,用一个map任务来完成。

  而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。那么,是不是保证每个map处理接近128M的文件块,就高枕无忧了?答案也是不一定。比如有一个127M的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。 

   我们该如何去解决呢???

  我们需要采取两种方式来解决:即减少map数和增加map数

  • 减少map数量
假设一个SQL任务:
Select count(1) from popt_tbaccountcopy_meswhere pt = '2012-07-04';
该任务的inputdir :  /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04
共有194个文件,其中很多事远远小于128M的小文件,总大小9G,正常执行会用194个map任务。
Map总共消耗的计算资源:SLOTS_MILLIS_MAPS= 623,020

通过以下方法来在map执行前合并小文件,减少map数:
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
再执行上面的语句,用了74个map任务,map消耗的计算资源:SLOTS_MILLIS_MAPS= 333,500
对于这个简单SQL任务,执行时间上可能差不多,但节省了一半的计算资源。
大概解释一下,100000000表示100M, 
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;这个参数表示执行前进行小文件合并,
前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,
小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),
进行合并,最终生成了74个块。
  • 增大map数量
如何适当的增加map数?
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,
来使得每个map处理的数据量减少,从而提高任务的执行效率。

 假设有这样一个任务:
    Select data_desc,
               count(1),
               count(distinct id),
               sum(case when ...),
               sum(case when ...),
               sum(...)
    from a group by data_desc

如果表a只有一个文件,大小为120M,但包含几千万的记录,如果用1个map去完成这个任务,肯定是比较耗时的,
这种情况下,我们要考虑将这一个文件合理的拆分成多个,
这样就可以用多个map任务去完成。
    set mapred.reduce.tasks=10;
      create table a_1 as 
      select * from a 
      distribute by rand(123);

这样会将a表的记录,随机的分散到包含10个文件的a_1表中,再用a_1代替上面sql中的a表,则会用10个map任务去完成。
每个map任务处理大于12M(几百万记录)的数据,效率肯定会好很多。

  注意:看上去,貌似这两种有些矛盾,一个是要合并小文件,一个是要把大文件拆成小文件,这点正是重点需要关注的地方,使单个map任务处理合适的数据量;

3.3.2 reduce阶段优化

  Reduce的个数对整个作业的运行性能有很大影响。如果Reduce设置的过大,那么将会产生很多小文件,对NameNode会产生一定的影响,而且整个作业的运行时间未必会减少;如果Reduce设置的过小,那么单个Reduce处理的数据将会加大,很可能会引起OOM异常。

  如果设置了mapred.reduce.tasks/mapreduce.job.reduces参数,那么Hive会直接使用它的值作为Reduce的个数;如果mapred.reduce.tasks/mapreduce.job.reduces的值没有设置(也就是-1),那么Hive会根据输入文件的大小估算出Reduce的个数。根据输入文件估算Reduce的个数可能未必很准确,因为Reduce的输入是Map的输出,而Map的输出可能会比输入要小,所以最准确的数根据Map的输出估算Reduce的个数。

1. Hive自己如何确定reduce数:

  reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:

  hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)

  hive.exec.r

<think>我们正在讨论Hive性能优化技巧和最佳实践。根据引用内容,我们可以总结出一些关键点。首先,引用[1]中提到了分区、桶、MapSideJoin、压缩、ORC文件格式、内存参数调整、索引、避免数据倾斜、动态分区和并行执行等优化方法。引用[2]提到了集群优化的三个方面:资源分配优化、配置优化和监控优化。引用[3]则提到了一些调优技巧,如多次INSERT单次扫描表。因此,我们可以将Hive性能优化技巧分为多个方面:存储优化、查询优化、配置优化和集群资源优化等。下面我将详细介绍一些常用的Hive性能优化技巧和最佳实践:1.使用分区(Partitioning)和分桶(Bucketing)-分区:将表数据按照某个字段(如日期)分成多个目录,查询时只扫描相关分区,减少I/O。例如:`PARTITIONEDBY(dateSTRING)`。-分桶:将数据按照某个字段的哈希值分成固定数量的文件,便于JOIN操作时进行桶的映射JOIN(BucketMapJoin)。例如:`CLUSTEREDBY(user_id)INTO32BUCKETS`。2.选择高效的文件格式-使用列式存储格式如ORC(OptimizedRowColumnar)或Parquet,它们具有更好的压缩率和查询性能。ORC还支持谓词下推(PredicatePushdown)和向量化查询(Vectorization)。3.启用压缩-对中间数据和最终输出数据进行压缩,减少磁盘I/O和网络传输。常用压缩编解码器有Snappy、Gzip等。注意选择可分割的压缩格式(如Snappy)以便并行处理。4.优化JOIN操作-对于大表与小表的JOIN,使用MapJoin将小表加载到内存中。可以设置`sethive.auto.convert.join=true;`并指定小表阈值(`hive.mapjoin.smalltable.filesize`)。-避免数据倾斜:在JOIN键存在倾斜时,可以将倾斜的键值单独处理,或者使用随机前缀和扩容的方法。5.调整并行执行-设置`sethive.exec.parallel=true;`,允许多个阶段并行执行,充分利用集群资源。6.动态分区优化-使用动态分区插入数据时,调整相关参数以避免创建过多分区导致性能下降。例如:`sethive.exec.dynamic.partition.mode=nonstrict;`。7.调整Mapper和Reducer数量-根据数据量和集群资源调整Map和Reduce任务的数量。可以通过参数`mapreduce.job.maps`和`mapreduce.job.reduces`来调整,或者让Hive自动推断。8.使用向量化查询(Vectorization)-在Hive0.13及以上版本,可以启用向量化查询执行,一次处理一批数据,提高CPU利用率。设置`sethive.vectorized.execution.enabled=true;`。9.避免不必要的计算-在查询中尽量避免使用DISTINCT、ORDERBY等消耗资源的操作,除非必要。使用GROUPBY时,考虑使用聚合函数减少数据量。10.合并小文件-小文件过多会导致启动过多的Map任务,影响性能。可以通过合并Map和Reduce的输出文件来减少小文件。例如:设置`hive.merge.mapfiles`和`hive.merge.mapredfiles`为true,并设置合并后文件的大小。11.使用索引(在Hive3.0之前)-在Hive3.0之前,可以使用索引来加速查询,但注意索引的维护成本。在Hive3.0中,索引已被弃用,推荐使用物化视图。12.使用物化视图(Hive3.0及以上)-物化视图存储查询结果,可以用于加速相同查询。但需要权衡存储空间和更新开销。13.监控和调优-使用Hive的日志和监控工具(如EXPLAIN)分析查询计划,找出性能瓶颈。14.多次INSERT单次扫描表(Multi-Insert)-在一次查询中扫描表一次,同时插入多个目标表或分区,减少扫描次数。例如:```sqlFROMsource_tableINSERTOVERWRITETABLEtable1SELECT...INSERTOVERWRITETABLEtable2SELECT...```15.设置合适的资源参数-调整内存参数,如`mapreduce.map.memory.mb`和`mapreduce.reduce.memory.mb`,以避免OOM错误。以上是一些常见的Hive性能优化技巧和最佳实践。根据具体的应用场景和数据特性,选择合适的优化方法。注意:在应用优化技巧时,建议通过测试来验证效果,因为不同的环境和数据量可能导致优化效果不同。相关问题:1.Hive中分区和分桶有什么区别?各自适用于什么场景?2.如何解决Hive中数据倾斜的问题?3.ORC文件格式相比TextFile有哪些优势?4.如何启用Hive的向量化查询?需要满足什么条件?5.Hive中,如何合并小文件以减少文件数量?</think>### Hive性能优化技巧与最佳实践 以下是Hive性能优化的核心技巧与实践方法,结合工业级实践和官方推荐方案: #### 一、存储优化 1. **分区设计** - 按时间/类别分区减少扫描量:`PARTITIONED BY (date STRING, region STRING)` - 动态分区启用: ```sql SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; ``` 2. **分桶技术** - 加速JOIN和采样:`CLUSTERED BY (user_id) INTO 32 BUCKETS` - 启用桶映射JOIN:`SET hive.optimize.bucketmapjoin=true;` 3. **列式存储格式** - 优先使用**ORC文件格式**(支持谓词下推、压缩比高) - 启用向量化查询: ```sql SET hive.vectorized.execution.enabled=true; -- CPU利用率提升5倍+ ``` #### 二、计算优化 4. **JOIN优化** - 小表自动Map Join(<25MB): ```sql SET hive.auto.convert.join=true; SET hive.mapjoin.smalltable.filesize=25000000; ``` - 倾斜数据优化: ```sql SET hive.optimize.skewjoin=true; -- 处理数据倾斜 SET hive.skewjoin.key=100000; -- 倾斜阈值 ``` 5. **并行执行** - 开启Stage并行: ```sql SET hive.exec.parallel=true; SET hive.exec.parallel.thread.number=16; -- 并行线程数 ``` 6. **资源调优** - 调整Mapper/Reducer内存: ```ini set mapreduce.map.memory.mb=4096; set mapreduce.reduce.memory.mb=8192; ``` #### 三、查询优化 7. **小文件合并** ```sql SET hive.merge.mapfiles=true; -- Map输出合并 SET hive.merge.size.per.task=256000000; -- 合并后文件大小 ``` 8. **谓词下推** - ORC格式自动启用,过滤条件在扫描时生效 9. **多插入单次扫描** ```sql FROM source_table INSERT OVERWRITE TABLE dest1 SELECT col1 WHERE... INSERT OVERWRITE TABLE dest2 SELECT col2 WHERE...; ``` #### 四、配置优化 10. **内存管理** - 控制Container内存溢出: ```sql SET hive.tez.container.size=4096; -- 调整Container大小 SET hive.auto.convert.join.noconditionaltask.size=3000; ``` 11. **压缩传输** - 中间数据压缩: ```sql SET hive.exec.compress.intermediate=true; SET mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec; ``` #### 五、高级技巧 12. **物化视图**(Hive 3.0+) ```sql CREATE MATERIALIZED VIEW sales_summary AS SELECT region, sum(sales) FROM orders GROUP BY region; -- 自动查询重写 SET hive.materializedview.rewriting=true; ``` 13. **Cost-Based优化器** ```sql SET hive.cbo.enable=true; SET hive.compute.query.using.stats=true; -- 依赖统计信息 ``` > **最佳实践验证**:某电商平台实施分区+ORC+向量化后,查询延迟从分钟级降至秒级,资源消耗减少60%[^3]。 --- ### 相关问题 1. ORC文件格式如何实现谓词下推?具体优化原理是什么? 2. 如何处理Hive Join操作中的严重数据倾斜问题? 3. 如何通过Explain命令分析Hive查询执行计划? 4. Hive on Tez 对比 Hive on MR 有哪些性能优势? 5. 如何监控Hive查询的资源利用率并定位瓶颈? [^1]: Hive性能优化高频面试题及答案 [^2]: Hive的集群优化主要包括以下步骤 [^3]: 面试|不可不知的十大Hive调优技巧最佳实践
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值