parameter server学习

最新推荐文章于 2024-08-17 11:13:41 发布

weixin_34267123

最新推荐文章于 2024-08-17 11:13:41 发布

阅读量113

点赞数

文章标签：数据结构与算法大数据人工智能

关于parameter server的学习：

https://www.zybuluo.com/Dounm/note/517675

机器学习系统相比于其他系统而言，有一些自己的独特特点。例如：

迭代性：模型的更新并非一次完成，需要循环迭代多次
容错性：即使在每个循环中产生一些错误，模型最终仍能收敛
参数收敛的非均匀性：有些参数几轮迭代就会收敛，而有的参数却需要上百轮迭代。

而且工业界需要训练大型的机器学习模型，一些广泛应用的特定的模型在规模上有两个特点：

参数很大，超过单个机器的容纳的能力（大型LR和神经网络）
训练数据太大，需要并行提速（大数据）

这篇文章讲的也很不错：

https://www.youkuaiyun.com/article/2015-05-21/2824742

降低网络通信开销

异步执行

灵活的数据一致性模型

选择性通信

缓冲与压缩

容灾

Efficient Communication：高效的通信

Elastic Scalability：使用一致性哈希算法

Fault Tolerance and Durability： 节点故障是不可避免的

Ease of Use：全局共享的参数可以被表示成各种形式

2.2.1 (Key,Value) Vectors
2.2.2 Range Push/Pull
2.2.3 Asynchronous Tasks and Dependency
2.2.4 Flexible Consistency
2.2.5 User-defined Filters

常用的过滤器有significantly modified filter，即只push大于某一门槛的entry。也有KKT filter，利用最优化问题的一些条件过滤掉对weights影响不大的entry。

2.4 实现

2.4.1 Vector Clock

2.4.3 Replication and Consistency

一致性哈希算法：即将数据按照某种hash算法映射到环上，然后将机器按照同样的hash算法映射到环上，将数据存储到环上顺时针最近的机器上。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34267123

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

李沐 Parameter Server 总结

蒜法

07-25

435

无

Parameter Server论文阅读笔记《Scaling Distributed Machine Learning with the Parameter Server》

iteye_9057的博客

01-14

773

工作一直在使用分布式的机器学习框架，有必要了解一些基本的原理，就先从李沐大佬的文章入手，写个笔记作为记录。主要贡献第三代开源的Parameter Server架构，具有以下特性 1）高效的通信 2）灵活的一致性模型 3）弹性可拓展能力 4）系统容错能力 5）易用性工程挑战通信：访问巨量的参数，需要大量的网络带宽支持。容错：分布式计算需要较好的容错能力，failover机制。相关工作第一代的参数服务器架构 VLDB 2010，灵活性和性能都比较欠缺，使用memcached存储作为同步机制。 Ya

参与评论您还未登录，请先登录后发表或查看评论

parameter_server

08-18

parameter_server pslite 参数服务器说明 parameter_server pslite 参数服务器说明

ROS学习笔记七：parameter server

Will_Ye的博客

03-20

2399

ROS学习笔记七：parameter server 一.Parameter server 前面学了三种主要通信机制： publishers/subscribers services/clients action-servers/action-clients 除了以上三种通信机制，还有第四种通信机制，那就是 parameter server 可以很方便的通过parameter...

机器学习系统--Parameter Server

crazy_scott的博客

01-04

367

介绍分布式机器学习系统架构-- Parameter Server。 GraphLab简介是一个以参数为中心的机器学习系统。 Observations 某些learning算法的模型复杂，参数很大 Complex Models with Billions and Trillions of Parameters e.g. LDA 某些Learning过程呈现线性，需要同步 Sequent...

parameter server

sinat_34080511的博客

08-26

385

参数服务器用于分布式机器学习，通过多个节点在多台机器上运行来求解机器学习问题。通常是有一个schedule node、多个worker和多个nodes。 worker：读取数据、计算梯度。通过push和pull操作来和其他server nodes通信。比如，将计算的梯度上传到server，或者pull 最近的模型。 server：维护和更新模型权重 scheduler：监控其它nodes...

转：Parameter Server 详解

weixin_34138255的博客

01-08

115

Parameter Server 详解本博客仅为作者记录笔记之用，不免有很多细节不对之处。还望各位看官能够见谅，欢迎批评指正。更多相关博客请猛戳：http://blog.youkuaiyun.com/cyh_24 如需转载，请附上本文链接：http://blog.youkuaiyun.com/cyh_24/article/details/50545780 MXNet 是李沐和陈天奇等...

基于参数服务器（Parameter Server）PS-Lite的分布式深度学习训练和预测框架

热门推荐

AutoVision (by 仙道菜)

01-20

4万+

MXNet是李沐和陈天奇等各路英雄豪杰打造的开源深度学习框架（最近不能更火了），其中最吸引我的是它的分布式训练的特性；而提供支持其分布式训练特性的正是当年李少帅和 Alex Smola 等人开发的 parameter server. 本文从易用性、通信高效性、可扩展性等角度介绍 parameter server .

parameter_server架构

雨石

04-25

2万+

现在的机器学习系统，但凡是大一点的公司，恐怕都在用分布式了。而在分布式机器学习领域，最出名的恐怕就是少帅的PS框架了。读了一些原始论文，我试着来理解一下。

parameter server介绍

liangwqi的博客

10-24

6460

1. Parameter Server介绍参数服务器是一个编程框架，用于方便分布式并行程序的编写，其中重点在于对大规模参数的分布式存储和协同的支持。 机器学习系统相比于其他系统而言，有一些自己的独特特点。例如：迭代性：模型的更新并非一次完成，需要循环迭代多次容错性：即使在每个循环中产生一些错误，模型最终仍能收敛参数收敛的非均匀性：有些参数几轮迭代就会收敛，而有的参数却需要上百轮迭...

深度学习&分布式中Parameter Server 详解

xiaocong1990的博客

08-31

751

Parameter Server 分布式机器学习训练原理一文读懂

给我一点温度

09-17

1678

上篇文章对 Spark MLlib 的并行训练方法做了详细的介绍（https://blog.youkuaiyun.com/sinat_26811377/article/details/100763590），如文章所说，Spark 采取了简单直观的数据并行的方法解决模型并行训练的问题，但由于Spark 的并行梯度下降方法是同步阻断式的，且模型参数需通过全局广播的形式发送到各节点，因此 Spark 的并行梯度下...

ROS参数服务器(Parameter Server)

Nikki_o3o的博客

06-06

2982

rosparam使得我们能够存储并操作ROS 参数服务器（Parameter Server）上的数据。参数服务器能够存储整型、浮点、布尔、字符串、字典和列表等数据类型。rosparam使用YAML标记语言的语法。一般而言，YAML的表述很自然：1 是整型, 1.0 是浮点型, one是字符串, true是布尔, [1, 2, 3]是整型列表, {a: b, c: d}是字典....

ParameterServer入门和理解

LegenDavid's warehouse

09-25

2745

目录 parameter server原理分布式系统中的同步与异步机制 parameter server架构 Push and Pull Task:Synchronous and Asynchronous PS下的算法ps-lite实现 ps-lite角色重要类运行脚本 test_simple_app流程 MXNet之ps-lite及parameter server原理 ps-lite...

Parameter Server

02-10

### Parameter Server概念 Parameter Server (PS) 是一种用于大规模分布式机器学习系统的架构组件，旨在解决大型模型训练中的存储和通信瓶颈问题[^1]。通过将参数更新过程分布化并引入专门负责管理全局共享参数的服务器节点，使得系统能够支持更大规模的数据集和更复杂的模型。 ### 工作原理在典型的分布式机器学习环境中，worker 节点执行具体的梯度计算任务并将结果反馈给 PS；随后由 PS 完成实际的参数调整操作后再广播回各个 worker 继续下一轮迭代。这种方式不仅提高了资源利用率还增强了整体运算效能[^3]。具体来说： - **初始化阶段**：所有参与方共同商定初始权重值，并将其保存于 PS 中； - **前向传播与反向传播期间**：各 Worker 使用本地副本完成预测及误差评估后上传差异至 PS 进行累积求平均处理； - **更新环节**：经过充分收集来自多方的信息之后，PS 执行最终版本号增加动作并向外界推送最新状态通知。此流程确保了即使面对海量级样本量也能维持较高的收敛速度而不至于陷入局部最优解陷阱之中[^4]。 ```python import numpy as np class SimpleParameterServer(object): def __init__(self, params_shape): self.params = np.zeros(params_shape) def push(self, gradient_updates): """接收来自workers的梯度更新""" for param_id, grad_update in enumerate(gradient_updates): self.params[param_id] += grad_update def pull(self): """提供当前最新的参数给workers""" return self.params.copy() ``` 上述代码展示了最基础版的parameter server实现逻辑，其中包含了两个核心函数`push()` 和 `pull()`,分别用来接受来自不同workder端传来的梯度变化信息以及分发经整合后的全局变量副本供下次循环使用.