【转载】Softmax Regression

本文深入探讨了Softmax Regression作为Logistic Regression扩展的应用于多分类问题的原理与实现。通过对比二分类问题,详细介绍了Softmax Regression的系统方程、损失函数及偏导公式,并讨论了参数优化过程中出现的问题及解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.html


在前面的logistic regression博文Deep learning:四(logistic regression练习) 中,我们知道logistic regression很适合做一些非线性方面的分类问题,不过它只适合处理二分类的问题,且在给出分类结果时还会给出结果的概率。那么如果需要用类似的方法(这里类似的方法指的是输出分类结果并且给出概率值)来处理多分类问题的话该怎么扩展呢?本次要讲的就是对logstic regression扩展的一种多分类器,softmax regression。参考的内容为网页:http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression

  在Logistic regression中,所学习的系统的程为:

   

  其对应的损失函数为:

   

  可以看出,给定一个样本,就输出一个概率值,该概率值表示的含义是这个样本属于类别’1’的概率,因为总共才有2个类别,所以另一个类别的概率直接用1减掉刚刚的结果即可。如果现在的假设是多分类问题,比如说总共有k个类别。在softmax regression中这时候的系统的方程为:

   

  其中的参数sidta不再是列向量,而是一个矩阵,矩阵的每一行可以看做是一个类别所对应分类器的参数,总共有k行。所以矩阵sidta可以写成下面的形式:

   

  此时,系统损失函数的方程为:

   

  其中的1{.}是一个指示性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。

  当然了,如果要用梯度下降法,牛顿法,或者L-BFGS法求得系统的参数的话,就必须求出损失函数的偏导函数,softmax regression中损失函数的偏导函数如下所示:

   

  注意公式中的是一个向量,表示的是针对第i个类别而求得的。所以上面的公式还只是一个类别的偏导公式,我们需要求出所有类别的偏导公式。表示的是损失函数对第j个类别的第l个参数的偏导。

  比较有趣的时,softmax regression中对参数的最优化求解不只一个,每当求得一个优化参数时,如果将这个参数的每一项都减掉同一个数,其得到的损失函数值也是一样的。这说明这个参数不是唯一解。用数学公式证明过程如下所示:

   

  那这个到底是什么原因呢?从宏观上可以这么理解,因为此时的损失函数不是严格非凸的,也就是说在局部最小值点附近是一个”平坦”的,所以在这个参数附近的值都是一样的了。那么怎样避免这个问题呢?其实加入规则项就可以解决(比如说,用牛顿法求解时,hession矩阵如果没有加入规则项,就有可能不是可逆的从而导致了刚才的情况,如果加入了规则项后该hession矩阵就不会不可逆了),加入规则项后的损失函数表达式如下:

   

  这个时候的偏导函数表达式如下所示:

   

  接下来剩下的问题就是用数学优化的方法来求解了,另外还可以从数学公式的角度去理解softmax regression是logistic regression的扩展。

  网页教程中还介绍了softmax regression和k binary classifiers之间的区别和使用条件。总结就这么一个要点:如果所需的分类类别之间是严格相互排斥的,也就是两种类别不能同时被一个样本占有,这时候应该使用softmax regression。反正,如果所需分类的类别之间允许某些重叠,这时候就应该使用binary classifiers了。

 

  参考资料:

     Deep learning:四(logistic regression练习)

     http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression

 

作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:tornadomeet,欢迎交流!)



Python实现softmax regression(也称为多类别逻辑回归)可以使用NumPy库来进行数值计算。下面是一个简单的示例代码: ```python import numpy as np def softmax_regression(X, y, num_classes, learning_rate, num_iterations): num_features = X.shape[1] theta = np.zeros((num_features, num_classes)) for i in range(num_iterations): scores = np.dot(X, theta) exp_scores = np.exp(scores) probs = exp_scores / np.sum(exp_scores, axis=1, keepdims=True) # 计算损失函数 loss = -np.log(probs[range(len(X)), y]) data_loss = np.sum(loss) / len(X) # 计算梯度 d_probs = probs d_probs[range(len(X)), y] -= 1 d_probs /= len(X) d_theta = np.dot(X.T, d_probs) # 更新参数 theta -= learning_rate * d_theta return theta # 示例数据 X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]) y = np.array([0, 1, 2, 1]) # 调用softmax_regression函数进行训练 num_classes = len(np.unique(y)) learning_rate = 0.01 num_iterations = 1000 theta = softmax_regression(X, y, num_classes, learning_rate, num_iterations) print("训练得到的参数theta:") print(theta) ``` 这段代码实现了softmax regression的训练过程。首先,定义了一个softmax_regression函数,该函数接受输入特征矩阵X、标签向量y、类别数量num_classes、学习率learning_rate和迭代次数num_iterations作为参数。在函数内部,首先初始化参数theta为全零矩阵。然后,通过迭代更新参数theta,直到达到指定的迭代次数。在每次迭代中,计算得分矩阵scores、概率矩阵probs和损失函数loss。然后,计算梯度d_theta,并使用学习率更新参数theta。最后,返回训练得到的参数theta。 在示例数据部分,定义了一个简单的输入特征矩阵X和标签向量y。调用softmax_regression函数进行训练,并打印训练得到的参数theta。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值