parameter server学习

本文探讨了参数服务器在大规模机器学习中的关键作用,包括其在模型迭代、容错性及参数收敛方面的特性。深入分析了工业级应用中参数服务器面对的挑战,如网络通信开销、数据一致性模型以及容灾策略。同时,介绍了高效通信、弹性扩展和用户定义过滤器等技术,以应对大规模参数和数据训练的需求。

关于parameter server的学习:

https://www.zybuluo.com/Dounm/note/517675

 

机器学习系统相比于其他系统而言,有一些自己的独特特点。例如:

  • 迭代性:模型的更新并非一次完成,需要循环迭代多次
  • 容错性:即使在每个循环中产生一些错误,模型最终仍能收敛
  • 参数收敛的非均匀性:有些参数几轮迭代就会收敛,而有的参数却需要上百轮迭代。

而且工业界需要训练大型的机器学习模型,一些广泛应用的特定的模型在规模上有两个特点:

  1. 参数很大,超过单个机器的容纳的能力(大型LR和神经网络)
  2. 训练数据太大,需要并行提速(大数据)

 

这篇文章讲的也很不错:

https://www.youkuaiyun.com/article/2015-05-21/2824742

 

降低网络通信开销

异步

灵活的数据一致性模型

 

选择性通信

缓冲与压缩

 

容灾

 

 

Efficient Communication:高效的通信

Elastic Scalability:使用一致性哈希算法

Fault Tolerance and Durability: 节点故障是不可避免的

Ease of Use:全局共享的参数可以被表示成各种形式

 

常用的过滤器有significantly modified filter,即只push大于某一门槛的entry。也有KKT filter,利用最优化问题的一些条件过滤掉对weights影响不大的entry。

 

2.4 实现

2.4.1 Vector Clock
2.4.3 Replication and Consistency

一致性哈希算法:即将数据按照某种hash算法映射到环上,然后将机器按照同样的hash算法映射到环上,将数据存储到环上顺时针最近的机器上。

 

转载于:https://www.cnblogs.com/charlesblc/p/9604140.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值