Parameter Server论文阅读笔记《Scaling Distributed Machine Learning with the Parameter Server》

工作一直在使用分布式的机器学习框架,有必要了解一些基本的原理,就先从李沐大佬的文章入手,写个笔记作为记录。

主要贡献
第三代开源的Parameter Server架构,具有以下特性
1)高效的通信
2)灵活的一致性模型
3)弹性可拓展能力
4)系统容错能力
5)易用性

工程挑战
通信:访问巨量的参数,需要大量的网络带宽支持。
容错:分布式计算需要较好的容错能力,failover机制。

相关工作
第一代的参数服务器架构
VLDB 2010,灵活性和性能都比较欠缺,使用memcached存储作为同步机制。
YahooLDA实现了一些基本原语的定义,包括update、set,get等

第二代的参数服务器架构
Distbelief(Google,2012)只针对特殊应用,不够通用

第三代的参数服务器架构
Petuum、PS server更加通用

本问提出的架构结合各家所长,解决当前限制
Spark Mlib,包含中间状态的存储,有很好拓展性,但是受限于BSP的一致性。
GraphLab,异步通信,但是有结构限制,拓展性不太好。
Piccolo,有完善的参数aggregate,但缺少消息压缩、备份、一致性。

目的
风险最小化,风险就是预测误差的衡量,预测误差即模型对未来的样本的预测误差。
在这里插入图片描述

一部分是在训练数据上的误差,一部分是模型复杂度的惩罚(正则项)。
模型的复杂度和训练的数据量之间有明显的关系,当模型复杂度高训练数据少时容易出现过拟合的情况,结果可能出现记忆每个样本的结果,对未来样本的预测能力是不好的;当模型复杂度低数据量多的时候模型就无法捕捉感兴趣的相关

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值