logistic regression

最新推荐文章于 2024-05-19 14:00:00 发布

库柏

最新推荐文章于 2024-05-19 14:00:00 发布

阅读量197

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_36420612/article/details/82013807

本文探讨了Sigmoid函数在逻辑回归中的应用，通过极大似然估计寻找最优参数，介绍了梯度上升法、随机梯度下降法及牛顿法等优化方法。文中还讨论了使用Sigmoid函数拟合概率的合理性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sigmoid 函数

祥见百度百科：https://baike.baidu.com/item/Sigmoid函数/7981407?fr=aladdin
这里写图片描述
这个算法比较简单，下图展示了模型假设和学习准则。

基本想法就是，用sigmoid函数的输出作为分类为1的估计值即P(y=1|θ;x)，那么分类为0的概率为1-P(y=1|θ;x)。那么联合分布为

如图中所示，当类别为1时，第二个乘数为1。当类别为0时，第一个乘数为1。这里只是用了一个简单的技巧，将两个式子合二为一。
在第一幅图的右半边，我们用极大似然估计的方法，去寻找最合适的参数。
对于这种无约束的优化问题，可以用stochastic gradient descent or batch gradient descent or newton’s method 等方法去解决。（其实是梯度上升法）
这里写图片描述
从图中可以看出SGD方法波动较大，牛顿法最快。算法比较简单，代码就不分享了。有一个值得思考的问题，这里我们用sigmod函数去拟合概率，这样做的依据是什么呢？
1.这样便于数学的计算。用梯度下降法求解会发现，最后的梯度是error*feature，是比较简单的。
2.这里其实是首先假设样本分布符合二项分布，然后一步步推导出来的。（吴恩达机器学习课指数分布族和广义线性模型）另一篇在做详细讨论。
3.当然还有其他原因可以证明这种假设的合理性。事实上，在概率的意义里一切都不是绝对的。可以从多种角度去解释这种假设有一定的合理性。