Angel-ML项目Spark on Angel编程深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01102/article/details/148465820

Angel-ML项目Spark on Angel编程深度解析

angel A Flexible and Powerful Parameter Server for large-scale machine learning 项目地址: https://gitcode.com/gh_mirrors/an/angel

引言

在分布式机器学习领域，Angel-ML项目提供了一套高性能的机器学习计算框架。其中Spark on Angel作为其重要组件，完美结合了Spark的数据处理能力和Angel的参数服务器优势。本文将深入解析Spark on Angel的编程模型和核心概念，帮助开发者快速掌握这一技术。

环境准备与项目配置

Spark on Angel基于Spark 2.1.0和Scala 2.11.8构建，建议开发者使用匹配的环境进行开发。在项目配置方面，需要添加以下核心依赖：

<dependency>
    <groupId>com.tencent.angel</groupId>
    <artifactId>spark-on-angel-core</artifactId>
    <version>${angel.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>com.tencent.angel</groupId>
    <artifactId>spark-on-angel-mllib</artifactId>
    <version>${angel.version}</version>
    <scope>provided</scope>
</dependency>

导入核心包：

import com.tencent.angel.spark.context.PSContext

核心架构与初始化

初始化流程

Spark on Angel的初始化分为两个关键步骤：

Spark初始化：创建SparkSession实例
Angel PS初始化：通过PSContext建立参数服务器连接

// Spark初始化
val builder = SparkSession.builder()
  .master(master)
  .appName(appName)
  .config("spark.ps.num", "x")  // 设置PS节点数
  .config("B", "y")             // 其他配置参数
val spark = builder.getOrCreate()

// Angel PS初始化
val context = PSContext.getOrCreate(spark.sparkContext)

PSContext详解

PSContext是连接Spark和Angel参数服务器的桥梁，提供以下核心功能：

参数服务器节点的启动与终止
资源管理与分配
任务调度协调

典型使用模式：

// 获取或创建PSContext实例
val context = PSContext.getOrCreate(spark.sparkContext)

// 获取已存在的实例
val sameContext = PSContext.instance()

// 终止PSContext
PSContext.stop()

核心数据结构与操作

PSVector体系

PSVectorPool机制

PSVectorPool是Angel PS上的一个逻辑矩阵，具有以下特性：

矩阵列数对应向量维度(dim)
矩阵行数对应容量(capacity)
自动管理PSVector的生命周期
同Pool内的PSVector才能进行运算

PSVector操作

创建方式：

// 创建稠密向量
val dVector = PSVector.dense(dim, capacity)

// 创建稀疏向量
val sVector = PSVector.sparse(dim, capacity)

// 复制已有向量
val dupVector = PSVector.duplicate(dVector)

初始化方法：

// 常量填充
dVector.fill(1.0)

// 均匀分布初始化
VectorUtils.randomUniform(dVector, -1.0, 1.0)

// 正态分布初始化
VectorUtils.randomNormal(dVector, 0.0, 1.0)

PSMatrix体系

PSMatrix代表参数服务器上的分布式矩阵：

// 创建稠密矩阵
val dMatrix = DensePSMatrix.dense(rows, cols, rowsInBlock, colsInBlock)

// 创建稀疏矩阵
val sMatrix = SparsePSMatrix.sparse(rows, cols)

// 数据操作
val rowVector = dMatrix.pull(rowId)  // 拉取行向量
dMatrix.push(rowId, updatedVector)   // 更新行向量

// 资源释放
dMatrix.destroy()

高级功能：自定义PS函数

Spark on Angel支持通过继承特定接口实现自定义向量运算：

// 基本映射函数
class MulScalar(scalar: Double) extends MapFunc {
  override def apply(elem: Double): Double = elem * scalar
  // 实现其他数值类型的处理...
}

// 使用自定义函数
val result = VectorUtils.map(vector, new MulScalar(2.0))

自定义函数需要实现：

各数据类型的处理逻辑
序列化/反序列化方法
原地操作标记

实战案例

案例1：特征累加

val psVector = PSVector.dense(dim, capacity)

rdd.foreach { case (label, feature) =>
  psVector.increment(feature)  // 分布式累加特征
}

println("特征总和:" + psVector.pull.mkString(" "))

案例2：梯度下降实现

val w = PSVector.dense(dim).fill(initWeights)

for (i <- 1 to ITERATIONS) {
  val gradient = PSVector.duplicate(w)
  
  instance.mapPartitions { iter =>
    val brzW = w.pull()  // 拉取当前参数
    
    val subG = iter.map { case (label, feature) =>
      // 计算梯度
      val margin = -label * brzW.dot(feature)
      val multiplier = (1 / (1 + math.exp(margin)) - 1) * label
      feature.mul(multiplier)
    }.reduce(_ add _)
    
    gradient.increment(subG)  // 累加梯度
    Iterator.empty
  }.count()
  
  VectorUtils.axpy(-1.0, gradient, w)  // 参数更新
}

println("最终参数:" + w.pull().mkString(" "))