Sigmoid function 的数学原理

最新推荐文章于 2025-10-19 08:51:31 发布

原创最新推荐文章于 2025-10-19 08:51:31 发布 · 1.1w 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#数学 #函数 #机器学习

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨Sigmoid函数的来源和数学含义，从Logistic Regression和神经网络的角度阐述其作用。通过公式推导，解释了Sigmoid如何从概率论的角度得出，并分析了为何在某些情况下，直接使用Discriminative model优于Generative model。

Sigmoid function详解

本文阅读对象为有一定machine learing基础，并且在模型的数学含义层面有意愿探索的同学。

什么是Sigmoid function

一提起Sigmoid function可能大家的第一反应就是Logistic Regression。我们把一个sample扔进sigmoid中，就可以输出一个probability，也就是是这个sample属于第一类或第二类的概率。

还有像神经网络也有用到sigmoid，不过在那里叫activation function。

Sigmoid function长下面这个样子：

σ (z) = 1 1 + e - z

$\sigma(z) = \dfrac{1}{1+e^{-z}}$

其实这个function我们只知道怎么用它，但是不知道它是怎么来的，以及底层的含义是什么。我在ATA中搜了一下并没有人解释这个问题，知乎有人解答不过都是照着教材抄一抄捞几个赞，那么我详细的解释一下，争取不要让算法工程师沦为调参工程师…

首先假设我们有两个class：class1和class2，并且给出一个sample x，我们的目标是求x属于 $C_{1}$ 的概率是多少。

这个概率我们可以通过Naive Bayes很轻松的得出，也就是：
公式1：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x )

$P(C_{1} | x) = \dfrac{P(x|C_{1})P(C_{1})}{P(x)}$

其中
公式2：

P (x) = P (x | C 1) P (C 1) + P (x | C 2) P (C 2)

$P(x) = P(x | C_{1})P(C_{1}) + P(x | C_{2})P(C_{2})$
这个公式是高中难度的，不过也解释一下：x出现的概率等于，class1出现的概率乘以class1中出现x的概率加上 class2出现的概率乘以class2中出现x的概率。

那么就可以把公式2带入公式1的分母中：
公式3：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 )

$P(C_{1} | x) = \dfrac{ P(x|C_{1})P(C_{1}) }{P(x|C_{1})P(C_{1})+P(x|C_{2})P(C_{2})}$

下面我们将等式两边同时除以分子就变成了：
公式4：

P (C 1 | x) = 1 1 + P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 )

$P(C_{1} | x) = \dfrac{1}{1+ \dfrac{P(x|C_{2})P(C_{2})}{P(x|C_{1})P(C_{1})}}$

设

z = ln P ( x | C 1 ) P ( C 1 ) P ( x | C 2 ) P ( C 2 )

$z = \ln\dfrac{P(x|C_{1})P(C_{1})}{P(x|C_{2})P(C_{2})}$

那么把z带入公式4就变成了：

σ (z) = 1 1 + e - z

$\sigma(z) = \dfrac{1}{1+e^{-z}}$
也就是Sigmoid function

这个 $z$ 应该长什么样子？

我们将 $z$ 变换一下可以变换成下面的样子：

z = ln P ( x | C 1 ) P ( x | C 2 ) + ln P ( C 1 ) P ( C 2 )

$z = \ln\dfrac{P(x|C_{1})}{P(x|C_{2})} + \ln\dfrac{P(C_{1})}{P(C_{2})}$
上式中

lnP(C1)P(C2) $\ln\dfrac{P(C_{1})}{P(C_{2})}$ 中的

P(C1)P(C2) $\dfrac{P(C_{1})}{P(C_{2})}$ 是很好求的，设class1在训练集中出现的数目是

N1 $N_{1}$ ，class2在训练集中出现的数目是

N2 $N_{2}$ ，那么：

ln P ( C 1 ) P ( C 2 ) = ln N 1 N 1 + N 2 N 2 N 1 + N 2 = ln N 1 N 2

$\ln\dfrac{P(C_{1})}{P(C_{2})} = \ln\dfrac{\dfrac{N_{1}}{N_{1}+N_{2}}} {\dfrac{N_{2}}{N_{1}+N_{2}}} = \ln\dfrac{N_{1}}{N_{2}}$

其中 $P(x|C_{1})$ 和 $P(x|C_{2})$ 都遵从Guassian probability distribution：

P (x | C 1) = 1 2 π D / 2 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 (x - μ 1) T Σ - 1 1 (x - μ 1)

$P(x|C_{1}) = \dfrac{1}{2\pi^{D/2}} \dfrac{1}{\left | \Sigma_{1} \right |^{1/2}} e^{-1/2(x-\mu_{1})^T\Sigma_{1}^{-1}(x-\mu_{1})}$

P (x | C 2) = 1 2 π D / 2 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 (x - μ 2) T Σ - 1 2 (x - μ 2)

$P(x|C_{2}) = \dfrac{1}{2\pi^{D/2}} \dfrac{1}{\left | \Sigma_{2} \right |^{1/2}} e^{-1/2(x-\mu_{2})^T\Sigma_{2}^{-1}(x-\mu_{2})}$

那么我们再回到这个公式中：

z = ln P ( x | C 1 ) P ( x | C 2 ) + ln P ( C 1 ) P ( C 2 )

$z = \ln\dfrac{P(x|C_{1})}{P(x|C_{2})} + \ln\dfrac{P(C_{1})}{P(C_{2})}$
第二项我们已经求出来了，下面我们把第一项Guassian probability distribution带入：

ln P ( x | C 1 ) P ( x | C 2 ) = ln 1 2 π D / 2 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 1 ) T Σ - 1 1 ( x - μ 1 ) 1 2 π D / 2 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 2 ) T Σ - 1 2 ( x - μ 2 )

$\ln\dfrac{P(x|C_{1})}{P(x|C_{2})} = \ln\dfrac {\dfrac{1}{2\pi^{D/2}} \dfrac{1}{\left | \Sigma_{1} \right |^{1/2}} e^{-1/2(x-\mu_{1})^T\Sigma_{1}^{-1}(x-\mu_{1})}} {\dfrac{1}{2\pi^{D/2}} \dfrac{1}{\left | \Sigma_{2} \right |^{1/2}} e^{-1/2(x-\mu_{2})^T\Sigma_{2}^{-1}(x-\mu_{2})}}$

乍一看，我滴妈简直太复杂太恶心了 :)
但是别慌，很多东西都能消掉的，我们来消一下。
首先，上面分子分母中 $\dfrac{P(x|C_{1})}{P(x|C_{2})}$ 可以消掉，就变成了：

ln P ( x | C 1 ) P ( x | C 2 ) = ln 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 1 ) T Σ - 1 1 ( x - μ 1 ) 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 2 ) T Σ - 1 2 ( x - μ 2 )

$\ln\dfrac{P(x|C_{1})}{P(x|C_{2})} = \ln\dfrac {\dfrac{1}{\left | \Sigma_{1} \right |^{1/2}} e^{-1/2(x-\mu_{1})^T\Sigma_{1}^{-1}(x-\mu_{1})}} {\dfrac{1}{\left | \Sigma_{2} \right |^{1/2}} e^{-1/2(x-\mu_{2})^T\Sigma_{2}^{-1}(x-\mu_{2})}}$

接着拆：

ln P ( x | C 1 ) P ( x | C 2 ) = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e [(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2)]

$\ln\dfrac{P(x|C_{1})}{P(x|C_{2})} = \ln\dfrac{\left | \Sigma_{2} \right |^{1/2}} {\left | \Sigma_{1} \right |^{1/2}} e^{[(x-\mu_{1})^{T}(\Sigma_{1})^{-1}(x-\mu_{1})-(x-\mu_{2})^{T}(\Sigma_{2})^{-1}(x-\mu_{2})]}$

再拆：

ln P ( x | C 1 ) P ( x | C 2 ) = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 - 1 2 [(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2)]

$\ln\dfrac{P(x|C_{1})}{P(x|C_{2})} = \ln\dfrac{\left | \Sigma_{2} \right |^{1/2}} {\left | \Sigma_{1} \right |^{1/2}} - \dfrac{1}{2}[(x-\mu_{1})^{T}(\Sigma_{1})^{-1}(x-\mu_{1})-(x-\mu_{2})^{T}(\Sigma_{2})^{-1}(x-\mu_{2})]$

上式中第二项 $\dfrac{1}{2}[(x-\mu_{1})^{T}(\Sigma_{1})^{-1}(x-\mu_{1})-(x-\mu_{2})^{T}(\Sigma_{2})^{-1}(x-\mu_{2})]$ ，中括号里面有两项，我再把这两项里面的括号全都打开，打开的目的是为了后面的化简，首先先看第一项：

(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2) = x T Σ - 1 1 x - x T Σ - 1 1 μ 1 - μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 μ 1

$(x-\mu_{1})^{T}(\Sigma_{1})^{-1}(x-\mu_{1})-(x-\mu_{2})^{T}(\Sigma_{2})^{-1}(x-\mu_{2}) = x^{T}\Sigma_{1}^{-1}x - x^{T}\Sigma_{1}^{-1}\mu_{1} - \mu_{1}^{T}\Sigma_{1}^{-1}x + \mu_{1}^{T}\Sigma^{-1}\mu_{1}$

= x T Σ - 1 1 x - 2 μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 1 μ 1

$= x^{T}\Sigma_{1}^{-1}x - 2\mu_{1}^{T}\Sigma_{1}^{-1}x + \mu_{1}^{T}\Sigma_{1}^{-1}\mu_{1}$

第二项化简方法一样，把下角标换成2就行了：

(x - μ 2) T (Σ 2) - 1 (x - μ 2) = x T Σ - 1 2 x - 2 μ T 2 Σ - 1 2 x + μ T 2 Σ - 1 2 μ 2

$(x-\mu_{2})^{T}(\Sigma_{2})^{-1}(x-\mu_{2}) = x^{T}\Sigma_{2}^{-1}x - 2\mu_{2}^{T}\Sigma_{2}^{-1}x + \mu_{2}^{T}\Sigma_{2}^{-1}\mu_{2}$

拆的差不多了，下面我们回到 $z = \ln\dfrac{P(x|C_{1})}{P(x|C_{2})} + \ln\dfrac{P(C_{1})}{P(C_{2})}$ 中，把刚才的化简结果带进去：

z = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 - 1 2 [x T Σ - 1 1 x - 2 μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 1 μ 1 - x T Σ - 1 2 x + 2 μ T 2 Σ - 1 2 x - μ T 2 Σ - 1 2 μ 2] + ln N 1 N 2

$z = \ln\dfrac{\left | \Sigma_{2} \right |^{1/2}} {\left | \Sigma_{1} \right |^{1/2}} - \dfrac{1}{2}[x^{T}\Sigma_{1}^{-1}x - 2\mu_{1}^{T}\Sigma_{1}^{-1}x + \mu_{1}^{T}\Sigma_{1}^{-1}\mu_{1} - x^{T}\Sigma_{2}^{-1}x + 2\mu_{2}^{T}\Sigma_{2}^{-1}x - \mu_{2}^{T}\Sigma_{2}^{-1}\mu_{2}] + \ln\dfrac{N_{1}}{N_{2}}$

仔细观察不难发现，上式中中括号里面第一项和第四项是可以消掉的。
并且我们可以认为 $\Sigma_{1} = \Sigma_{2} = \Sigma$ ，刚才我一直没解释 $\mu$ 和 $\Sigma$ 是什么，下面我简单说一下， $\mu$ 就是mean（均值）， $\Sigma$ 就是covairance（协方差），其中 $\mu$ 是个vector $\Sigma$ 是个matrix，具体什么形式不在本文里详细解释，一解释就没完没了了，可以深推一下Guassian看看paper（个人感觉意义不大，其实理解到这里完全够用了）。

好了，为什么可以认为 $\Sigma_{1} = \Sigma_{2} = \Sigma$ 呢？因为如果每个class都有自己的covariance的话，那么variance会很大，参数的量一下就上去了，参数一多，就容易overfitting。这么说的话，z里面的第一项 $\ln\dfrac{\left | \Sigma_{2} \right |^{1/2}} {\left | \Sigma_{1} \right |^{1/2}}$ 就是0了。

好开心，又有好多东西被约掉了 :)

最后， $z$ 被化简成了下面这种最终形态：

z = (μ 1 - μ 2) Σ - 1 x - 1 2 μ T 1 Σ - 1 μ 1 + 1 2 μ T 2 Σ - 1 μ 2 + ln N 1 N 2

$z = (\mu_{1}-\mu_{2})\Sigma^{-1}x - \dfrac{1}{2}\mu_{1}^{T}\Sigma^{-1}\mu_{1} + \dfrac{1}{2}\mu_{2}^{T}\Sigma^{-1}\mu_{2} + \ln\dfrac{N_{1}}{N_{2}}$

可以观察到，第一项有系数 $x$ ，后面几项里其实都是参数。
我们就可以理解为x的系数其实就是sigmoid中的参数 $w^{T}$ （这是个matrix），后面那些项可以看成是参数 $b$ 。

那么在Generative model中我们的目标是寻找最佳的 $N_{1},N_{2},\mu_{1},\mu_{2},\Sigma$ 使 $P(C_{1}|x)$ maximise。

但是我们已经将一连串复杂的参数和方程化简成了 $z = \sigma(w^{T}x + b)$ 那为什么还要舍近求远的求5个参数去将目标最优化呢？只有“两个参数”的方法我们叫做Discraminative model。

实际上，在大多数情况下，这两种方法各有利弊，但是实际上Discraminative model泛化能力比Generative model还是强不少的。什么时候Generative model更好呢？
1.training data比较少的时候，需要靠几率模型脑补没有发生或的事情。
2.training data中有noise。

讲解完毕，本文每个公式都是用latex搞出来的，已校对，欢迎找茬修正。