【大论文】可扩展机器学习的并行与分布式优化算法综述_亢良伊2017

本文概述了机器学习中的优化算法,包括梯度下降、二阶优化、邻近梯度、坐标下降和交替方向乘子算法,并详细讨论了分布式梯度下降算法的实现和改进。此外,还分析了分布式学习中的通信代价问题及其解决方案,如模型压缩、参数过滤和降低通信频率。最后,文章提到了同步与异步梯度下降的挑战,以及针对非凸函数优化的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、基础知识:

1.目标函数
机器学习要优化的目标函数一般表现为一下形式:
在这里插入图片描述
在这里插入图片描述
函数J(θ)为目标函数,f为表示真实值与拟合值之差的损失函数,r(θ)为正则项(防止过拟合问题,主要分为L1正则项、L2正则项)。
各种优化算法通过不同的方式求解该方程以得到使J(θ)最优的参数θ。

2.优化算法
5类最常见的优化算法:
梯度下降算法(GD):可微凸函数
二阶优化算法(Second-order):可微凸函数
邻近梯度算法(PG):可微凸函数与不可微凸函数的和问题
坐标下降算法(CD):不可求导凸函数问题
交替方向乘子算法(ADMM):有约束的凸函数问题
优化算法对比
3.算法评价维度
(1)模型特性(目标函数特性)
目标函数按照属性特征分为:凸函数和非凸函数,其中凸函数又分为强凸函数(到达极小值区域时函数曲线陡峭)和非强凸函数(到达极小值区域时函数曲线平缓)。
传统机器学习问题通常为凸函数优化问题。又可细分为对变量有约束的凸函数和对变量无约束的凸函数,可微凸函数和不可微凸函数。
神经网路相关的深度学习问题通常是非凸函数,目前非凸函数的优化算法研究较少。
(2)输入数据特性
稀疏性:样本特征值非零的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值