附录:速查手册 (Appendix: Cheat Sheets)
附录A:常用公式速查表 (Common Formulas Quick Reference)
本附录汇总了深度学习中最核心的公式,覆盖了激活函数、损失函数和优化器三大模块。请务必理解每个公式的含义、应用场景及其优缺点。
1. 激活函数 (Activation Functions)
| 函数名称 (Name) | 公式 (Formula) | 导数 (Derivative) | 优点 & 缺点 |
|---|---|---|---|
| Sigmoid | σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+e−x1 | σ′(x)=σ(x)(1−σ(x))\sigma'(x) = \sigma(x)(1 - \sigma(x))σ′(x)=σ(x)(1−σ(x)) | 优点: 平滑、易于求导。 缺点: ① 梯度消失:当输入过大或过小时,导数趋近于0。② 输出非零中心:输出恒大于0,导致后续层接收的是非零均值的信号,影响收敛。 |
| Tanh | tanh(x)=ex−e−xex+e−x\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}tanh(x)=ex+e−xex−e−x | tanh′(x)=1−tanh2(x)\tanh'(x) = 1 - \tanh^2(x)tanh′(x)=1−tanh2(x) | 优点: ① 输出零中心:输出范围为(-1, 1),收敛速度比Sigmoid快。 缺点: 仍然存在梯度消失问题。 |
| ReLU (Rectified Linear Unit) |
ReLU(x)=max(0,x)\text{ReLU}(x) = \max(0, x)ReLU(x)=max(0,x) | ReLU′(x)={ 1x>00x≤0\text{ReLU}'(x) = \begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}ReLU′(x)={ 10x>0x≤0 | 优点: ① 计算高效:计算简单。② 缓解梯度消失:在正区间梯度为1。③ 稀疏性。 缺点: ① 神经元死亡 (Dying ReLU):如果输入恒为负,该神经元梯度永远为0。② 输出非零中心。 |
| Leaky ReLU | f(x)={ xx>0αxx≤0f(x) = \begin{cases} x & x > 0 \\ \alpha x & x \leq 0 \end{cases}f(x)={ xαxx>0x≤0 (α\alphaα 是一个小的正常数,如0.01) | f′(x)={ 1x>0αx≤0f'(x) = \begin{cases} 1 & x > 0 \\ \alpha & x \leq 0 \end{cases}f′(x)={ 1αx>0x≤0 | 优点: 试图解决Dying ReLU问题,允许负值输入时有微小的梯度。 缺点: 性能不一定总是优于ReLU。α\alphaα 值的选择是个超参数。 |
| Softmax | Softmax(zi)=ezi∑j=1Cezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}Softmax(zi)=∑j=1Cezjezi | - | 优点: 将一个向量转换为概率分布,所有输出之和为1。通常用于多分类问题的输出层。 缺点: 计算相对复杂,且只适用于互斥类别的分类。 |
2. 损失函数 (Loss Functions)
| 函数名称 (Name) | 公式 (Formula) | 主要应用场景 |
|---|---|---|
| 均方误差 (MSE) Mean Squared Error |
L(y,y^)=1N∑i=1N(yi−y^i)2L(y, \hat{y}) = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2L(y,y^)=N1∑i=1N(yi−y^i)2 | 回归问题 (Regression)。对异常值(outliers)非常敏感。 |
| 交叉熵 (Cross-Entropy) | - | - |
| 二元交叉熵 (Binary Cross-Entropy) |
L(y,y^)=−[ylog(y^)+(1−y)log(1−y^)]L(y, \hat{y}) = -[y \log(\hat{y}) + (1-y) \log(1-\hat{y})]L(y,y^)=−[ylog(y^)+(1−y)log(1−y^)] | 二分类问题 (Binary Classification)。通常与 Sigmoid 激活函数配合使用。 |
| 分类交叉熵 (Categorical Cross-Entropy) |
L(y,y^)=−∑c=1Cyclog(y^c)L(y, \hat{y}) = - \sum_{c=1}^{C} y_{c} \log(\hat{y}_{c})L(y,y^)=−∑c=1Cyclog(y |

最低0.47元/天 解锁文章
1480

被折叠的 条评论
为什么被折叠?



