深度学习笔记（润色）

原创

已于 2025-08-05 17:52:11 修改 · 891 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-08-05 16:23:05 首次发布

基本模型：单个神经元处理多个输入（ $x1,x2,…,xnx_1, x_2, \dots, x_n$ ），生成一个输出（ $y$ ）。公式为：
$f\left( \sum_{i=1}^n w_i x_i + b \right)$
其中：
- $w_i$ 是权重（weight）， $b$ 是偏置（bias）。
- $f$ 是激活函数（activation function），引入非线性。
矩阵形式：将输入和权重表示为向量，更简洁：
$f(\mathbf{w} \mathbf{x} + b)$
这里 $x=[x1,x2,…,xn]T\mathbf{x} = [x_1, x_2, \dots, x_n]^T$ 是输入列向量（ $\times 1$ ）， $w=[w1,w2,…,wn]\mathbf{w} = [w_1, w_2, \dots, w_n]$ 是权重行向量（ $\times n$ ）。该模型也称为感知器（Perceptron）。

神经网络由多层组成，称为多层感知机（Multi-Layer Perceptron, MLP）。典型结构包括：

输入层：
- 输入数据 $x\mathbf{x}$ （例如一个样本有2个特征，维度为 $\times 2$ ）。
- 实践中需重构为列向量（ $x∈R2×1\mathbf{x} \in \mathbb{R}^{2 \times 1}$ ）。
隐藏层（至少一层或多层）：
- 例如，50维隐藏层：
  $\mathbf{H} = \mathbf{w_1} \mathbf{x} + b_1$
  其中 $w1\mathbf{w_1}$ 是权重矩阵（维度 $50 \times 2$ ）， $b_1$