知识点
- 什么是 Sigmoidfunction S i g m o i d f u n c t i o n 函数,为何用 Sigmoidfunction S i g m o i d f u n c t i o n 函数
- 为何损失函数用交叉熵(对数损失)
- 梯度推导
- 延伸:梯度下降方式。。。。
逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的。
问题描述
假设有一个二分类问题,输出为 y∈0,1 y ∈ 0 , 1 , 而线性回归模型产生的预测值为 z=wTx+b z = w T x + b 是实数值,我们希望有一个理想的阶跃函数来帮我们实现z值到0/1值的转化。
然而该函数不连续,我们希望有一个单调可微的函数来供我们使用,于是便找到了 Sigmoidfunction S i g m o i d f u n c t i o n 来替代。
两者的图像如下图所示
代价函数定义
好了,所要用的几个函数我们都好了,接下来要做的就是根据给定的训练集,把参数w给求出来了。要找参数 w w ,首先就是得把代价函数(cost function)给定义出来,也就是目标函数。 我们第一个想到的自然是模仿线性回归的做法,利用误差平方和来当代价函数。
其中,,
i
i
表示第个样本点,
y(i)
y
(
i
)
表示第i个样本的真实值,
ϕ(z(i))
ϕ
(
z
(
i
)
)
表示第
i
i
个样本的预测值。
这时,如果我们将代入的话,会发现这时一个非凸函数,这就意味着代价函数有着许多的局部最小值,这不利于我们的求解。
那么我们不妨来换一个思路解决这个问题。前面,我们提到了 ϕ(z) ϕ ( z ) 可以视为类1的后验估计,所以我们有
其中, p(y=1|x;w) p ( y = 1 | x ; w ) 表示给定 w w ,那么点 y=1 y = 1 的概率大小。
上面两式可以写成一般形式
p(y|x;w)=ϕ(z)y(1−ϕ(z))(1−y) p ( y | x ; w ) = ϕ ( z ) y ( 1 − ϕ ( z ) ) ( 1 − y )
接下来我们就要用极大似然估计来根据给定的训练集估计出参数w。 L(w)=∏ni=1p(y(i)|x(i);w)=∏ni=1(ϕ(z(i)))y(i)(1−ϕ(z(i)))1−y(i) L ( w ) = ∏ i = 1 n p ( y ( i ) | x ( i ) ; w ) = ∏ i = 1 n ( ϕ ( z ( i ) ) ) y ( i ) ( 1 − ϕ ( z ( i ) ) ) 1 − y ( i )
为了乘积运算在计算机中会发生溢出,我们对上面这个等式的两边都取一个对数
l(w)=lnL(w)=∑ni=1y(i)ln(ϕ(z(i)))+(1−y(i))ln(1−ϕ(z(i))) l ( w ) = l n L ( w ) = ∑ i = 1 n y ( i ) l n ( ϕ ( z ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − ϕ ( z ( i ) ) )
我们现在要求的是使得 l(w) l ( w ) 最大的 w w 。没错,我们的代价函数出现了,我们在前面加个负号不就变成就最小了吗?不就变成我们代价函数了吗?
J(w)=−l(w)=−∑ni=1y(i)ln(ϕ(z(i)))+(1−y(i))ln(1−ϕ(z(i))) J ( w ) = − l ( w ) = − ∑ i = 1 n y ( i ) l n ( ϕ ( z ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − ϕ ( z ( i ) ) )
为了更好地理解这个代价函数,我们不妨拿一个例子的来看看
J(ϕ(z),y;w)=−yln(ϕ(z))−(1−y)ln(1−ϕ(z)) J ( ϕ ( z ) , y ; w ) = − y l n ( ϕ ( z ) ) − ( 1 − y ) l n ( 1 − ϕ ( z ) )
也就是说
J(ϕ(z),y;w)={−ln(ϕ(z))−ln(1−ϕ(z))if y=1if y=0 J ( ϕ ( z ) , y ; w ) = { − l n ( ϕ ( z ) ) i f y = 1 − l n ( 1 − ϕ ( z ) ) i f y = 0
参考内容
[1] https://blog.youkuaiyun.com/zjuPeco/article/details/77165974