Angel-PS参数服务器快速入门指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00136/article/details/148465830

Angel-PS参数服务器快速入门指南

angel A Flexible and Powerful Parameter Server for large-scale machine learning 项目地址: https://gitcode.com/gh_mirrors/an/angel

前言

在分布式机器学习领域，参数服务器(Parameter Server)架构已经成为处理大规模模型训练的重要范式。Angel-PS作为Angel机器学习框架的核心组件，提供了高效的参数服务器实现，能够支持超大规模特征的机器学习模型训练。本文将从零开始，带领读者理解Angel-PS的基本架构，并通过实现一个简单的逻辑回归(LR)算法，掌握基于Angel-PS开发分布式机器学习算法的基本方法。

核心概念解析

参数服务器架构

Angel-PS采用典型的主从架构设计，主要由两部分组成：

参数服务器层(PS Server)：负责存储和管理模型参数，通常由多台机器组成分布式存储
工作节点(Worker)：执行实际计算任务的逻辑单元，每个Worker可以运行一个或多个Task

在训练过程中，Worker会周期性地从PS Server拉取最新参数，计算梯度后，再将更新推送给PS Server。这种设计有效地分离了计算和存储，使得系统能够支持超大规模参数的模型训练。

核心抽象

Angel-PS提供了几个关键抽象来简化开发：

PSModel：对分布式参数矩阵的抽象，开发者无需关心参数如何在多台PS Server上分布
MLModel：机器学习模型的基类，可以包含多个PSModel
Task：具体计算任务的实现单元
Runner：任务提交和执行的入口

实战：实现分布式逻辑回归

第一步：定义模型

我们首先需要定义逻辑回归模型的结构。在Angel中，这通过继承MLModel类实现：

class QSLRModel(ctx: TaskContext, conf: Configuration) extends MLModel(ctx) {
  // 获取特征维度，默认为DEFAULT_ML_FEATURE_NUM
  val N = conf.getInt(MLConf.ML_FEATURE_NUM, MLConf.DEFAULT_ML_FEATURE_NUM)
  
  // 定义一个N维的稠密向量作为模型参数，并启用参数平均功能
  val weight = PSModel[DenseDoubleVector]("qs.lr.weight", 1, N).setAverage(true)
  addPSModel(weight)  // 将参数添加到模型
  
  // 设置模型保存和加载路径
  setSavePath(conf)
  setLoadPath(conf)
}

这个简单的模型只包含一个权重向量，实际应用中可以根据需要添加更多参数。

第二步：实现训练任务

训练任务的核心是继承TrainTask类并实现关键方法：

class QSLRTrainTask extends TrainTask[LongWritable, Text] {
  // 数据解析方法
  override def parse(key: LongWritable, value: Text): LabeledData = {
    DataParser.parseVector(key, value, feaNum, "dummy", negY = true)
  }
  
  // 训练过程
  override def train(ctx: TaskContext): Unit = {
    val lrModel = new QSLRModel(conf, ctx)
    val weightOnPS = lrModel.weight
    val lr = conf.getDouble(MLConf.ML_LEARN_RATE, 0.01) // 学习率
    
    while (ctx.getIteration < epochNum) {
      // 1. 从PS获取当前权重
      val weight = weightOnPS.getRow(0)
      
      // 2. 计算梯度(实际项目中应实现batchGradientDescent方法)
      val grad = batchGradientDescent(weight)
      
      // 3. 推送梯度更新到PS
      weightOnPS.increment(grad.timesBy(-1.0 * lr))
      weightOnPS.clock.get  // 同步等待更新完成
      
      // 4. 进入下一轮迭代
      ctx.incIteration()
    }
  }
}

第三步：实现Runner

Runner是任务的入口点，负责配置和提交任务：

class LRRunner extends MLRunner {
  override def train(conf: Configuration): Unit = {
    train(conf, QSLRModel(conf), classOf[QSLRTrainTask])
  }
}

任务提交与执行

完成代码编写后，可以通过以下命令提交任务到集群：

./bin/angel-submit \
--action.type train \
--angel.app.submit.class com.tencent.angel.example.quickStart.QSLRRunner \
--angel.train.data.path $input_path \
--angel.save.model.path $model_path \
--ml.epoch.num 10 \
--ml.feature.num 10000 \
--ml.data.type dummy \
--ml.learn.rate 0.001 \
--angel.workergroup.number 3 \
--angel.worker.memory.mb 8000 \
--angel.worker.task.number 3 \
--angel.ps.number 1 \
--angel.ps.memory.mb 5000 \
--angel.job.name QSLR

关键参数说明：