SPARK的计算向量化-spark本身的向量化

最新推荐文章于 2024-12-16 20:19:51 发布

原创

最新推荐文章于 2024-12-16 20:19:51 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #big data

本文深入探讨了Spark中向量化执行技术的实现原理，重点介绍了Tungsten项目中的代码生成功能如何通过ColumnarBatch实现数据处理的向量化，并讨论了JIT优化的局限性和改进方向。

背景

我们知道，随着计算引擎战争的结束（SPARK赢得了离线处理的霸权），越来越多的公司致力于性能的优化，而引擎的优化，目前直指计算的向量化，
这片文章来说说spark本身对于向量化的实现。

spark本身的优化

我们都知道spark的Tungsten项目，这个项目中有一点就是Code Generation（代码生成）。代码生成除了消除虚函数的调用等功能外，其实在向量化这块也是做了处理的。
直接跳到ColumnarToRowExec代码：

val columnarBatchClz = classOf[ColumnarBatch].getName
    val batch = ctx.addMutableState(columnarBatchClz, "batch")
  ...
 val localIdx = ctx.freshName("localIdx")
    val localEnd = ctx.freshName("localEnd")
    val numRows = ctx.freshName("numRows")
    val shouldStop = if (parent.needStopCheck) {
      s"if (shouldStop()) { $idx = $rowidx + 1; return; }"
    } else {
      "// shouldStop check is eliminated"
    }
    s"""
       |if ($batch == null) {
       |  $nextBatchFuncName();
       |}
       |while ($limitNotReachedCond $batch != null) {
       |  int $numRows = $batch.numRows();
       |  int $localEnd = $numRows - $idx;
       |  for (int $localIdx = 0; $localIdx &