Hive调优

更多信息https://blue-shadow.top/

附书代码Github工程:https://github.com/Shadow-Hunter-X

技术#1:使用TEZ

Hive可以使用Apache Tez执行引擎而不是Map-reduce引擎。不会详细介绍这里提到的使用Tez的许多好处; 相反,提出一个简单的建议:如果在您的环境中默认情况下没有打开它,请在Hive查询的开头使用Tez设置为“true”

set hive.execution.engine=tez;

技术#2:使用ORCFILE

Hive支持ORCfile,这是一种新的表存储格式,通过谓词下推,压缩等技术实现极佳的速度提升。
对每个HIVE表使用ORCFile应该是一个明智的选择,对于获得HIVE查询的快速响应时间非常有益。
作为一个例子,考虑两个大表A和B(存储为文本文件,这里没有指定一些列),以及一个简单的查询 :

SELECT A.customerID, A.name, A.age, A.address join
B.role, B.department, B.salary
ON A.customerID=B.customerID;

此查询可能需要很长时间才能执行,因为表A和B都存储为TEXT。将这些表转换为ORCFile格式通常会显着缩短查询时间:

CREATE TABLE A_ORC (
customerID int, name string, age int, address string
) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”);

INSERT INTO TABLE A_ORC SELECT * FROM A;

ORC支持压缩存储(使用ZLIB或如上所示使用SNAPPY),但也支持未压缩存储。
将基表转换为ORC通常是取决于所在团队获取数据的职责,由于其他优先级,可能需要一些时间来更改完整的获取数据过程。ORCFile的好处是如此明显,以至于推荐如上所示的自助式方法 - 将A转换为A_ORC,将B转换为B_ORC并以此方式进行连接,以便立即从更快的查询中受益,而不依赖于其他团队。

技术#3:VECTORIZATION

矢量化查询执行通过一次批量执行1024行而不是每行一行来提高扫描,聚合,过滤器和连接等操作的性能。
这个功能在Hive 0.13中引入,显着缩短了查询执行时间,并且可以通过两个参数设置轻松启用:

set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

技术#4:查询优化

在提交最终执行之前,Hive会优化每个查询的逻辑和物理执行计划。这些优化不是基于查询的成本 - 也就是说,直到运行时。
最近添加到Hive,基于成本的优化,基于查询成本执行进一步优化,从而导致可能不同的决策:如何订购联接,执行哪种类型的联接,并行度等。

要使用基于成本的优化(也称为CBO),请在查询开头设置以下参数

set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;

然后,通过运行Hive的“analyze”命令为CBO准备数据,以收集我们想要使用CBO的表的各种统计信息。
例如,在tweet数据表中,希望收集有关该表的统计信息以及大约2列:“sender”和“topic”:

analyze table tweets compute statistics;
analyze table tweets compute statistics for columns sender, topic;

使用HIVE 0.14(在HDP 2.2上),analyze命令的工作速度要快得多,而且您不需要指定每一列,因此只需如下:

analyze table tweets compute statistics for columns;

现在使用此表执行查询应该会导致不同的执行计划由于成本计算和Hive创建的不同执行计划而更快。

技术#5:编写良好的SQL

SQL是一种强大的声明性语言。与其他声明性语言一样,编写SQL语句的方法不止一种。尽管每个语句的功能都相同,但它可能具有截然不同的性能特征

CREATE TABLE clicks (
timestamp date, sessionID string, url string, source_ip string
) STORED as ORC tblproperties (“orc.compress” = “SNAPPY”);

每条记录代表一次点击事件,希望找到每个sessionID的最新网址。

有人使用如下方式:

SELECT clicks.* FROM 
clicks inner join
(   select sessionID, max(timestamp) as max_ts from clicks
    group by sessionID
) latest
ON clicks.sessionID = latest.sessionID AND clicks.timestamp = latest.max_ts;

在上面的查询中,构建一个子查询来收集每个会话中最新事件的时间戳,然后使用内部联接来过滤掉其余的事件。
虽然查询是一个合理的解决方案 - 从功能的角度来看 - 事实证明,有一种更好的方法来重写这个查询,如下所示

SELECT * FROM
(   SELECT *, 
    RANK() over (partition by sessionID,order by timestamp desc) as rank
    FROM clicks
) ranked_clicks
WHERE ranked_clicks.rank=1;

在这里,使用Hive的OLAP功能(OVER和RANK)来实现相同的功能,但没有使用表连接。
显然,删除不必要的连接几乎总能带来更好的性能,而且当使用大数据时,这比以往任何时候都更重要。在很多情况下查询不是最优的 - 所以仔细查看每个查询并考虑重写是否可以使它更好更快。

### Hive 性能的最佳实践 #### 合理设置执行引擎 为了提升Hive查询的执行效率,可以选择更高效的执行引擎。`hive.execution.engine` 参数决定了使用的执行框架,在处理大规模数据集时推荐采用Tez作为执行引擎[^4]。 ```sql SET hive.execution.engine=tez; ``` 这有助于充分利用集群资源,加速复杂查询过程中的计算任务完成速度。 #### 更新统计信息 利用 `ALTER TABLE` 命令维护表结构的同时也应关注统计数据的准确性。精确的元数据可以帮助Hive编译器构建最查询计划,进而改善整体性能表现[^1]。 ```sql ANALYZE TABLE table_name COMPUTE STATISTICS; ``` 此命令用于收集有关整个表格的信息;对于分区表,则可通过指定具体分区来获取相应部分的数据特征: ```sql ANALYZE TABLE table_name PARTITION (partition_spec) COMPUTE STATISTICS; ``` #### 维护最新分区信息 针对含有大量分区的大规模分布式存储环境而言,保持最新的分区列表至关重要。定期执行 `MSCK REPAIR TABLE` 可确保新增加或修改过的分区被正确识别并加入到现有架构之中。 ```sql MSCK REPAIR TABLE table_name; ``` #### 减少小文件数量 过多的小型文件会对I/O造成压力,影响读取速率。借助于 `COMPACT` 或者 `OPTIMIZE` 操作可以有效地合并零碎文件片段,降低磁盘访问频率,增强吞吐量。 ```sql ALTER TABLE table_name COMPACT 'MAJOR'; -- OR -- OPTIMIZE table_name ZORDER BY column_list; ``` ZOrdering是一种特别有效的技术,它不仅减少了不必要的Shuffle操作次数,而且还能促进更好的压缩效果。 #### 单次扫描多用途 当面对同一张表需实施多项独立却又相互关联的操作需求时,尽可能尝试一次性完成全部工作流程而非分批逐步推进。这样做的好处是可以节省重复加载相同数据所带来的开销成本,提高总体工作效率[^5]。 例如,可以在同一个CTAS(Create Table As Select)语句里实现过滤、转换以及汇总等多项逻辑运算: ```sql CREATE TABLE new_table AS SELECT * FROM source_table WHERE condition GROUP BY group_columns HAVING having_condition; ``` #### 数据倾斜处理策略 遇到因键分布不均而导致的部分节点负载过重情况时,可以通过整Join方式(如Map Join)、增加广播变量或是重新分配Key等方式缓解此类现象带来的负面影响。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值