Logistic-Regression 逻辑回归

最新推荐文章于 2025-04-18 22:28:21 发布

fcwenmingxing001

最新推荐文章于 2025-04-18 22:28:21 发布

阅读量135

点赞数

本文深入探讨了逻辑回归的基本原理及其应用，重点讲解了Sigmoid函数如何将线性回归模型转换为分类任务，并介绍了使用交叉熵作为损失函数的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

知识点

什么是 $Sigmoid function$ 函数，为何用 $Sigmoid function$ 函数
为何损失函数用交叉熵（对数损失）
梯度推导
延伸：梯度下降方式。。。。

逻辑回归是分类当中极为常用的手段，因此，掌握其内在原理是非常必要的。

问题描述

假设有一个二分类问题，输出为 $y∈{0,1}$ , 而线性回归模型产生的预测值为 $z=w^Tx+b$ 是实数值，我们希望有一个理想的阶跃函数来帮我们实现z值到0/1值的转化。

然而该函数不连续，我们希望有一个单调可微的函数来供我们使用，于是便找到了 $Sigmoid function$ 来替代。

两者的图像如下图所示

代价函数定义

好了，所要用的几个函数我们都好了，接下来要做的就是根据给定的训练集，把参数w给求出来了。要找参数 $w$ ，首先就是得把代价函数（cost function）给定义出来，也就是目标函数。我们第一个想到的自然是模仿线性回归的做法，利用误差平方和来当代价函数。

其中， $z^(i)=w^Tx^{(i)}+b$ ， $i$ 表示第 $i$ 个样本点， $y^{(i)}$ 表示第i个样本的真实值， $ϕ(z^{(i)})$ 表示第 $i$ 个样本的预测值。
这时，如果我们将 $ϕ^{z(i)}=1/(1+e^{−z^{(i)}})$ 代入的话，会发现这时一个非凸函数，这就意味着代价函数有着许多的局部最小值，这不利于我们的求解。

那么我们不妨来换一个思路解决这个问题。前面，我们提到了 $ϕ(z)$ 可以视为类1的后验估计，所以我们有

其中， $p(y=1|x;w)$ 表示给定 $w$ ，那么 $x$ 点 $y=1$ 的概率大小。

上面两式可以写成一般形式

$p(y|x;w)=\phi(z)^{y}(1 - \phi(z))^{(1-y)}$

接下来我们就要用极大似然估计来根据给定的训练集估计出参数w。 $L(w)=\prod_{i=1}^{n}p(y^{(i)}|x^{(i)};w)=\prod_{i=1}^{n}(\phi(z^{(i)}))^{y^{(i)}}(1-\phi(z^{(i)}))^{1-y^{(i)}}$

为了乘积运算在计算机中会发生溢出，我们对上面这个等式的两边都取一个对数

$l(w)=lnL(w)=\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)}))$

我们现在要求的是使得 $l(w)$ 最大的 $w$ 。没错，我们的代价函数出现了，我们在 $l(w)$ 前面加个负号不就变成就最小了吗？不就变成我们代价函数了吗？

$J(w)=-l(w)=-\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)}))$

为了更好地理解这个代价函数，我们不妨拿一个例子的来看看

$J(\phi(z),y;w)=-yln(\phi(z))-(1-y)ln(1-\phi(z))$

也就是说

$J(\phi(z),y;w)=\begin{cases} -ln(\phi(z)) & if \ y=1 \\ -ln(1-\phi(z)) & if \ y=0 \end{cases}$

参考内容

[1] https://blog.youkuaiyun.com/zjuPeco/article/details/77165974

fcwenmingxing001

博客等级

码龄18年

0
原创

0
点赞

0
收藏

2
粉丝

关注

私信

热门文章

Logistic-Regression 逻辑回归 135

分类专栏

机器学习

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。