机器学习笔记【Week5】

原创已于 2025-07-31 12:45:32 修改 · 1.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2025-05-25 04:10:45 首次发布

人工智能专栏收录该内容

14 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、神经网络复习与目标

神经网络是多个神经元层层叠加的模型，核心是通过调节权重参数 $Θ\Theta$ ，让网络输出逼近目标结果。

输入层：接收特征 $x$
隐藏层：通过激活函数 $g$ 变换输入，增加模型表达能力
输出层：生成最终预测结果 $hΘ(x)h_\Theta(x)$

目标：通过训练找到一组参数 $Θ\Theta$ ，使得代价函数 $J(Θ)J(\Theta)$ 最小，模型预测更准确。

二、代价函数（Cost Function）

神经网络的代价函数是对所有训练样本误差的平均，外加正则化避免过拟合：
$J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[ y_k^{(i)} \log(h_\Theta(x^{(i)})_k) + (1 - y_k^{(i)}) \log(1 - h_\Theta(x^{(i)})_k) \right] + \frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i,j} (\Theta_{ij}^{(l)})^2$

$m$ ：训练样本数
$K$ ：类别数（输出层神经元数）
$λ\lambda$ ：正则化参数
注意：正则化不包含偏置参数（ $Θi0(l)\Theta_{i0}^{(l)}$ ）

为什么用交叉熵？
它衡量两个概率分布间的差异，适合分类问题，且能加速训练收敛。

三、前向传播（Forward Propagation）

计算预测值的过程：

激活值计算：

对于第 $l$ 层神经元：
$z^{(l)} = \Theta^{(l-1)} a^{(l-1)}$
其中， $a^{(l-1)}$ 是第 $l - 1$ 层输出，且 $a^{(1)} = x$ （输入层）， $Θ(l−1)\Theta^{(l-1)}$ 是第 $l - 1$ 层到第 $l$ 层的权重矩阵。
激活函数应用：
$a^{(l)} = g(z^{(l)})$
常用激活函数：sigmoid
$\frac{1}{1 + e^{-z}}$
作用是非线性映射，使网络具备拟合复杂函数的能力。

四、反向传播（Backpropagation）核心原理

目标

计算代价函数对每个权重参数的偏导数 $∂J(Θ)∂Θij(l)\frac{\partial J(\Theta)}{\partial \Theta_{ij}^{(l)}}$ ，即梯度，供梯度下降优化。

1. 误差项定义

误差项 $δj(l)\delta_j^{(l)}$ 表示第 $l$ 层第 $j$ 个神经元的“误差”，其含义是：该神经元对最终误差的贡献。

2. 输出层误差计算

$\delta^{(L)} = a^{(L)} - y$

$a^{(L)}$ ：输出层的激活值（预测值）
$y$ ：真实标签（one-hot 编码）

解释：输出层误差即预测值与真实值差异。

3. 隐藏层误差传播

误差从输出层 “反向” 传播：
$\delta^{(l)} = \left( \Theta^{(l)} \right)^T \delta^{(l+1)} \circ g'(z^{(l)})$

$∘\circ$ 表示元素逐个相乘（Hadamard 乘积）
$g^{'} (z)$ 是激活函数导数，sigmoid导数：

$\cdot (1 - g(z))$

注意偏置项不参与误差计算，要从 $Θ\Theta$ 中剔除相应列

4. 梯度累积

对所有样本求和：
$\Delta^{(l)} := \Delta^{(l)} + \delta^{(l+1)} (a^{(l)})^T$
最后计算平均梯度：
$D^{(l)} = \frac{1}{m} \Delta^{(l)} + \frac{\lambda}{m} \Theta^{(l)} \quad (\text{偏置项除外})$

五、为什么反向传播有效？

利用链式法则，高效计算复杂函数复合的导数
只需一次前向计算和一次反向传播，即可得到所有参数梯度
计算复杂度随层数线性增加，不爆炸

六、梯度检查（Gradient Checking）

验证反向传播实现是否正确，采用数值微分方法。

数值梯度计算

对单个参数 $θ\theta$ ：
$\frac{\partial J(\theta)}{\partial \theta} \approx \frac{J(\theta + \epsilon) - J(\theta - \epsilon)}{2 \epsilon}$

$ϵ\epsilon$ 为很小的数值（如 $10^{-4}$ ）
对所有参数逐一检查，比较数值梯度和反向传播梯度

七、参数初始化技巧

全部初始化为 0 会导致网络所有节点学习相同的参数，失去学习能力。

八、Python 代码示例

import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def sigmoid_gradient(z):
    s = sigmoid(z)
    return s * (1 - s)

def initialize_weights(L_in, L_out):
    epsilon = np.sqrt(6) / np.sqrt(L_in + L_out)
    return np.random.uniform(-epsilon, epsilon, (L_out, L_in + 1))

def forward_propagate(X, theta1, theta2):
    m = X.shape[0]
    a1 = np.c_[np.ones(m), X]          # Add bias
    z2 = a1.dot(theta1.T)
    a2 = np.c_[np.ones(m), sigmoid(z2)]  # Add bias
    z3 = a2.dot(theta2.T)
    a3 = sigmoid(z3)
    return a1, z2, a2, z3, a3

def back_propagate(X, y, theta1, theta2, lambda_):
    m = X.shape[0]
    Delta1 = np.zeros(theta1.shape)
    Delta2 = np.zeros(theta2.shape)

    a1, z2, a2, z3, a3 = forward_propagate(X, theta1, theta2)

    d3 = a3 - y  # 输出层误差
    d2 = d3.dot(theta2[:,1:]) * sigmoid_gradient(z2)  # 隐藏层误差

    Delta1 += d2.T.dot(a1)
    Delta2 += d3.T.dot(a2)

    theta1_grad = Delta1 / m
    theta2_grad = Delta2 / m

    # 正则化（偏置项除外）
    theta1_grad[:, 1:] += (lambda_ / m) * theta1[:, 1:]
    theta2_grad[:, 1:] += (lambda_ / m) * theta2[:, 1:]

    return theta1_grad, theta2_grad