Hive矢量化

大数据侠客

于 2024-03-28 17:15:12 发布

阅读量171

点赞数

分类专栏： hive相关问题汇总及解决文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41367158/article/details/137118372

版权

hive相关问题汇总及解决专栏收录该内容

14 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Hive的矢量化执行能够提升处理效率，一次处理大约一千行数据，减少CPU使用时间。它支持多种数据类型和表达式，包括算术运算、比较、逻辑表达式等，并且适用于部分用户定义函数和日期函数。启用矢量化的设置是'hive.vectorized.execution.enabled=true'，并且注意时间戳值的范围限制。为了最佳性能，UDF应放在WHERE子句的右侧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hive矢量化

Hive 计算的时候默认是一次处理一行。在处理下一行之前，这一行数据需要先经过所有计算。这种处理模式的 CPU 使用效率非常低。而且Hive 目前严重依赖比较慢的反序列化方式，数据会通过一层对象检查器，用来标识列类型、反序列化数据并在内部循环中确定适当的（计算）表达式。这些虚拟方法调用会进一步减慢了处理速度。（翻译自https://issues.apache.org/jira/browse/HIVE-4160）

所以 Hive 添加了矢量化查询、执行的支持，这样在 Hive 中就能一次处理大约一千行的批次（默认），而不是一行。批处理中的每一列都表示为基本数据类型的向量。执行的内部循环的时候能非常快速地扫描这些向量，避免了方法调用、反序列化、不必要的 if-then-else 等，这大大减少了CPU的使用时间。

支持的数据类型：
当前支持以下数据类型：

tinyint
smallint
int
bigint
boolean
float
double
decimal
date
timestamp
string
表达式：
在受支持的类型上使用时ÿ

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。