hive矢量化
Hive 计算的时候默认是一次处理一行。在处理下一行之前,这一行数据需要先经过所有计算。这种处理模式的 CPU 使用效率非常低。而且Hive 目前严重依赖比较慢的反序列化方式,数据会通过一层对象检查器,用来标识列类型、反序列化数据并在内部循环中确定适当的(计算)表达式。这些虚拟方法调用会进一步减慢了处理速度。(翻译自https://issues.apache.org/jira/browse/HIVE-4160)
所以 Hive 添加了矢量化查询、执行的支持,这样在 Hive 中就能一次处理大约一千行的批次(默认),而不是一行。批处理中的每一列都表示为基本数据类型的向量。执行的内部循环的时候能非常快速地扫描这些向量,避免了方法调用、反序列化、不必要的 if-then-else 等,这大大减少了CPU的使用时间。
支持的数据类型:
当前支持以下数据类型:
tinyint
smallint
int
bigint
boolean
float
double
decimal
date
timestamp
string
表达式:
在受支持的类型上使用时ÿ