【大白话 AI 答疑】第9篇深入浅出：sigmoid函数公式设计原理—

【大白话 AI 答疑】第9篇深入浅出：sigmoid函数公式设计原理——为何是 $e^{-x}$ 而非 $e^x$

在神经网络的激活函数家族中，sigmoid函数是当之无愧的“元老级”成员。它凭借输出值域稳定在 $(0, 1)$ 的特性，成为二分类任务中概率预测的经典工具。很多初学者会疑惑：sigmoid函数为什么是 $σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}$ 这个形式？为什么偏偏选用 $e^{-x}$ ，而不是更直观的 $e^x$ ？ 本文从数学本质和神经网络任务需求出发，拆解这个公式的设计逻辑。

一、 sigmoid函数的核心目标：将任意输入映射为(0,1)区间的概率值

在二分类任务中，我们需要一个函数满足两个核心要求：

输入无界：能接收任意实数输入（ $x∈(−∞,+∞)x\in(-\infty,+\infty)$ ），适配神经网络线性层的输出范围；
输出有界：输出严格落在 $(0, 1)$ 之间，可直接解释为“预测为正类的概率”。

指数函数 $y=e^t$ 的特性恰好能实现这个目标——它的值域是 $(0,+∞)(0,+\infty)$ ，通过分母叠加常数的方式，就能把输出压缩到 $(0, 1)$ 区间。
由此，我们可以先确定sigmoid函数的基础框架：
$σ(x)=11+f(x)\sigma(x)=\frac{1}{1 + f(x)}$
其中 $f (x)$ 需要满足：值域为 $(0,+∞)(0,+\infty)$ ，这样分母 $1 + f (x)$ 的范围就是 $(1,+∞)(1,+\infty)$ ，最终 $11+f(x)\frac{1}{1+f(x)}$ 的输出才会落在 $(0, 1)$ 。

二、为什么选择 $f(x)=e^{-x}$ ？从单调性和任务逻辑说起

满足“值域为 $(0,+∞)(0,+\infty)$ ”的函数有很多，比如 $x^2$ （ $x≠0x\neq0$ ）、 $e^x$ 、 $e^{-x}$ 等。sigmoid函数最终选择 $f(x)=e^{-x}$ ，核心是为了满足单调递增的特性，这和二分类任务的逻辑强绑定。

1. 标准设计： $f(x)=e^{-x}$ ，实现单调递增的概率映射

将 $f(x)=e^{-x}$ 代入基础框架，得到标准sigmoid公式：
$σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}$
我们分三种输入情况分析函数行为：

$x$ 的取值趋势	$e^{-x}$ 的变化	分母 $1+e^{-x}$ 的变化	$σ(x)\sigma(x)$ 的输出	任务逻辑匹配度
$x→+∞x\to+\infty$	$e−x→0e^{-x}\to0$	$1+e−x→11+e^{-x}\to1$	$σ(x)→1\sigma(x)\to1$	输入越大，正类概率越接近1
$x = 0$	$e^{-0}=1$	$1+e^{-0}=2$	$σ(x)=0.5\sigma(x)=0.5$	输入为0时，正/负类概率相等
$x→−∞x\to-\infty$	$e−x→+∞e^{-x}\to+\infty$	$1+e−x→+∞1+e^{-x}\to+\infty$	$σ(x)→0\sigma(x)\to0$	输入越小，正类概率越接近0

显然，当 $f(x)=e^{-x}$ 时，sigmoid函数是单调递增的——输入 $x$ 越大，输出概率越高，完全契合“输入特征越强，预测为正类的概率越高”的二分类需求。

2. 反向尝试：若选择 $f(x)=e^x$ ，函数趋势完全颠倒

如果我们将 $f (x)$ 替换为 $e^x$ ，得到的函数是：
$σ′(x)=11+ex\sigma'(x)=\frac{1}{1+e^{x}}$
同样分析三种输入情况：

$x$ 的取值趋势	$e^{x}$ 的变化	分母 $1+e^{x}$ 的变化	$σ′(x)\sigma'(x)$ 的输出	任务逻辑匹配度
$x→+∞x\to+\infty$	$ex→+∞e^{x}\to+\infty$	$1+ex→+∞1+e^{x}\to+\infty$	$σ′(x)→0\sigma'(x)\to0$	输入越大，正类概率反而越接近0
$x = 0$	$e^{0}=1$	$1+e^{0}=2$	$σ′(x)=0.5\sigma'(x)=0.5$	输入为0时，概率仍为0.5
$x→−∞x\to-\infty$	$ex→0e^{x}\to0$	$1+ex→11+e^{x}\to1$	$σ′(x)→1\sigma'(x)\to1$	输入越小，正类概率越接近1

此时函数变为单调递减，输出概率和输入 $x$ 的大小完全负相关。这意味着：特征越强（ $x$ 越大），预测为正类的概率反而越低，和二分类任务的直观逻辑完全相悖。

3. 补充： $e^{-x}$ 的等价变形——本质是 $e^x$ 的另一种写法

我们可以对标准sigmoid公式做等价变换：
$σ(x)=11+e−x=exex+1\sigma(x)=\frac{1}{1+e^{-x}} = \frac{e^x}{e^x+1}$
这个变形后的公式里，分子和分母都出现了 $e^x$ ，但函数的单调性和值域没有任何变化。这说明：不是不能用 $e^x$ ，而是需要搭配对应的分子分母结构，最终实现单调递增的效果。而 $11+e−x\frac{1}{1+e^{-x}}$ 是最简洁的写法。

三、额外优势： $e^{-x}$ 让sigmoid的导数推导更简洁

除了匹配任务逻辑，选择 $e^{-x}$ 还有一个隐藏优势——简化导数计算，这对神经网络的反向传播至关重要。

sigmoid函数的导数公式为：
$σ′(x)=σ(x)⋅(1−σ(x))\sigma'(x)=\sigma(x)\cdot(1-\sigma(x))$
这个简洁的推导结果，核心依赖于指数函数 $e^t$ 的导数特性： $e^t)'=e^t$ 。
如果换成其他函数（比如 $x^2$ ）作为 $f (x)$ ，导数公式会变得极其复杂，大幅增加反向传播的计算成本。