Spark中的稀疏向量SparseVector类的源码解读

最新推荐文章于 2025-10-21 14:59:18 发布

原创

最新推荐文章于 2025-10-21 14:59:18 发布 · 6.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #源码

本文详细解读了Scala中SparseVector类的源码，该类在Spark中广泛使用。SparseVector利用索引数组和值数组存储非零元素，减少存储开销。文章介绍了其数据成员、关键方法，如toArray、copy、foreachActive等，并讨论了如何压缩向量及查找最大元素等操作。

首先纠正一下标题，这个类不是spark的源码中的，而是scala的源码中的，但是在spark源码中经常用到它。稀疏向量，底层基于索引数组和值数组共同实现。该类的核心思想是用两个数组，一个记录原始向量中非零元素的值，另一个记录原始向量中非零元素在原始向量中的位置。一共有三个数据成员，size记录原始向量的长度，indices数组为索引数组，values数组为值数组，索引数组和值数组的长度必须一致。注意：一个普通的SparseVector向量和普通向量没有区别，只有在这个向量调用了该类的toSparse方法把向量本身做了压缩之后值数组才只是存储非零元素。下面是该类的源码，我在关键的地方都做了详细注释。

class SparseVector @Since("1.0.0") (
    @Since("1.0.0") override val size: Int,
    @Since("1.0.0") val indices: Array[Int],
    @Since("1.0.0") val values: Array[Double]) extends Vector {

  require(indices.length == values.length, "Sparse vectors require that the dimension of the" +
    s" indices match the dimension of the values. You provided ${indices.length} indices and " +
    s" ${values.length} values.")
  require(indices.length <= size, s"You provided ${indices.length} indices and values, " +
    s"which exceeds the specified vector size ${size}.")

  override def toString: String =
    s"($size,${indices.mkString("[", ",", "]")},${values.mkString("[", ",", "]")})"

  //转化为数组，其中包含所有元素，不是只转化向量中的非零元素
  @Since(

最低0.47元/天解锁文章