Angel-ML项目在YARN集群上的部署与运行指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01006/article/details/148465774

Angel-ML项目在YARN集群上的部署与运行指南

angel A Flexible and Powerful Parameter Server for large-scale machine learning 项目地址: https://gitcode.com/gh_mirrors/an/angel

概述

Angel-ML作为一款高性能的分布式机器学习框架，能够与现有的大数据生态系统无缝集成。本文将详细介绍如何在YARN集群环境中部署和运行Angel-ML项目，帮助开发者快速上手这一强大的机器学习工具。

环境准备

硬件要求

在YARN上运行Angel-ML需要满足以下最低硬件配置：

至少6GB内存（1个参数服务器+1个工作节点+1个应用管理器）
推荐10GB内存以获得更流畅的运行体验

软件依赖

Hadoop集群：
- 版本要求：Hadoop 2.2.0或更高
- 必须包含正常运行的YARN和HDFS组件
客户端Gateway：
- Java 1.8或更高版本
- Spark 2.4或更高版本
- 能够正常提交Spark作业
- Angel发布包（angel- -bin.zip）

运行示例：PageRank算法

第一步：准备数据

hadoop fs -mkdir hdfs://<hdfs name>/test/pagerank_data

上传测试数据（以LogisticRegression数据为例）：

hadoop fs -put data/bc/edge hdfs://<hdfs name>/test/pagerank_data

第二步：提交任务

使用以下脚本提交PageRank任务到YARN集群：

#!/bin/bash

input=hdfs://<hdfs name>/test/pagerank_data
output=hdfs://<hdfs name>/test/pagerank_output
queue=your_queue_name

source ./spark-on-angel-env.sh

${SPARK_HOME}/bin/spark-submit \
    --master yarn-cluster \
    --conf spark.ps.jars=$SONA_ANGEL_JARS \
    --conf spark.ps.instances=2 \
    --conf spark.ps.cores=1 \
    --conf spark.ps.memory=1g \
    --jars $SONA_SPARK_JARS\
    --name "PageRank-spark-on-angel" \
    --queue $queue \
    --driver-memory 1g \
    --num-executors 2 \
    --executor-cores 1 \
    --executor-memory 1g \
    --class com.tencent.angel.spark.examples.cluster.PageRankExample \
    ./../lib/spark-on-angel-examples-${ANGEL_VERSION}.jar \
    input:$input \
    output:$output \
    resetProp:0.15

关键参数解析

| 参数名称 | 描述 | |---------|------| | spark.ps.jars | Angel参数服务器依赖的JAR包路径 | | spark.ps.instances | 参数服务器实例数量 | | spark.ps.cores | 每个参数服务器分配的CPU核心数 | | spark.ps.memory | 每个参数服务器分配的内存大小 | | resetProp | 算法特定参数（本例中为PageRank的重置概率） |