快速了解机器学习中LogisticRegression里的五种solver优化参数（超详细）

最新推荐文章于 2025-04-09 22:44:35 发布

AI_dataloads

最新推荐文章于 2025-04-09 22:44:35 发布

阅读量3.1k

点赞数 5

CC 4.0 BY-SA版权

文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/AI_dataloads/article/details/132817384

本文比较了逻辑回归中不同优化算法（liblinear,newton-cg,lbfgs,Sag,Saga）的特性，强调liblinear适用于小数据集，而sag/saga适用于大数据且速度快。多分类问题中，newton-cg,sag,saga,lbfgs适用于多项损失，liblinear限于OvR。考虑正则化和样本规模，选择算法需综合考量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Solver：

优化算法选择参数，只有五个可选参数，即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：

liblinear：

使用坐标轴下降法来迭代优化损失函数。使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。

newton-cg：

牛顿法，sag方法使用一阶导数，而牛顿法采用了二阶泰勒展开，这样缩减了迭代轮数，但是需要计算Hsssian矩阵的逆，所以计算复杂度较高。【也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】

Lbfgs：

拟牛顿法，考虑到牛顿法的Hessian矩阵求逆太过复杂，尤其在高维问题中几乎不可行，想到了用较低的代价寻找Hessian矩阵的近似逆矩阵，便有了拟牛顿法。【拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】

Sag：

即随机平均梯度下降，类似于我们的stocGradAscent1函数，思想是常用的一阶优化方法，是求解无约束优化问题最经典，最简单的方法之一。【即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。】

Saga：

线性收敛的随机优化算法。【线性收敛的随机优化算法的的变种。】

总结：

liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。

对于多分类问题，只有newton-cg,sag,saga和lbfgs能够处理多项损失，而liblinear受限于一对剩余(OvR)。啥意思，就是用liblinear的时候，如果是多分类问题，得先把一种类别作为一个类别，剩余的所有类别作为另外一个类别。依次类推，遍历所有类别，进行分类。newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。

同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量，要么回到L2正则化。

从上面的描述，大家可能觉得，既然newton-cg, lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vsmany(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR，不支持MvM，这样如果我们需要相对精确的多元逻辑回归时，就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。