【大论文】可扩展机器学习的并行与分布式优化算法综述_亢良伊2017

strawcherry_wj

于 2021-11-23 16:15:16 发布

阅读量1.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：分布式机器学习文章标签：分布式机器学习

本文链接：https://blog.youkuaiyun.com/strawcherry_wj/article/details/121493485

本文概述了机器学习中的优化算法，包括梯度下降、二阶优化、邻近梯度、坐标下降和交替方向乘子算法，并详细讨论了分布式梯度下降算法的实现和改进。此外，还分析了分布式学习中的通信代价问题及其解决方案，如模型压缩、参数过滤和降低通信频率。最后，文章提到了同步与异步梯度下降的挑战，以及针对非凸函数优化的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基础知识：

1.目标函数
机器学习要优化的目标函数一般表现为一下形式：
在这里插入图片描述

函数J(θ)为目标函数，f为表示真实值与拟合值之差的损失函数，r(θ)为正则项（防止过拟合问题，主要分为L1正则项、L2正则项）。
各种优化算法通过不同的方式求解该方程以得到使J(θ)最优的参数θ。

2.优化算法
5类最常见的优化算法：
梯度下降算法（GD）：可微凸函数
二阶优化算法（Second-order）：可微凸函数
邻近梯度算法（PG）：可微凸函数与不可微凸函数的和问题
坐标下降算法（CD）：不可求导凸函数问题
交替方向乘子算法（ADMM）：有约束的凸函数问题
优化算法对比
3.算法评价维度
（1）模型特性（目标函数特性）
目标函数按照属性特征分为：凸函数和非凸函数，其中凸函数又分为强凸函数（到达极小值区域时函数曲线陡峭）和非强凸函数（到达极小值区域时函数曲线平缓）。
传统机器学习问题通常为凸函数优化问题。又可细分为对变量有约束的凸函数和对变量无约束的凸函数，可微凸函数和不可微凸函数。
神经网路相关的深度学习问题通常是非凸函数，目前非凸函数的优化算法研究较少。
（2）输入数据特性
稀疏性：样本特征值非零的