LLM大模型中的基础数学工具——微分与积分

最新推荐文章于 2025-12-04 16:26:39 发布

原创最新推荐文章于 2025-12-04 16:26:39 发布 · 408 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#LLM大模型 #机器学习 #人工智能 #深度学习 #微积分

Q35: 推导多元链式法则 $\frac{\partial z}{\partial t} = \sum_{i} \frac{\partial z}{\partial x_i} \frac{\partial x_i}{\partial t}$

多元链式法则是啥？

多元链式法则用于求复合函数的偏导数。想象一个场景：z 是关于多个变量 $x_1, x_2, \dots, x_n$ 的函数，而每个 $x_i$ 又随 t 变化。此时，z 对 t 的变化率需综合各 $x_i$ 对 t 的影响。例如， $z = x^2 + y^2$ ， $x = t$ ， $y = 2t$ ，z 对 t 的导数就需用多元链式法则。

推导过程

设 $z = f(x_1, x_2, \dots, x_n)$ ， $x_i = g_i(t)$ 。给 t 一个增量 $\Delta t$ ，则 $x_i$ 有增量 $\Delta x_i$ ，z 有增量 $\Delta z$ 。由全增量公式： $\Delta z = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \Delta x_i + o(\sqrt{(\Delta x_1)^2 + \dots + (\Delta x_n)^2})$ 两边除以 $\Delta t$ ，取 $\Delta t \to 0$ 的极限： $\frac{\partial z}{\partial t} = \lim_{\Delta t \to 0} \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \frac{\Delta x_i}{\Delta t} = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \frac{\partial x_i}{\partial t}$

在 LLM 中的使用

LLM 训练中，计算梯度是关键。例如，模型输出 z 依赖多层参数 $x_i$ （如权重矩阵），而 $x_i$ 又在优化中随迭代步 t 更新。用多元链式法则求 $\frac{\partial z}{\partial t}$ ，实现梯度反向传播。如 Transformer 中，计算损失对注意力层参数的导数，需通过多元链式法则层层传递。

代码示例：

import torch  

# 定义函数 z = x² + y²，x = t，y = 2t  
t = torch.tensor(1.0, requires_grad=True)  
x = t  
y = 2 * t  
z = x ** 2 + y ** 2  

# 手动用多元链式法则求导  
dz_dx = 2 * x  
dz_dy = 2 * y  
dx_dt = 1.0  
dy_dt = 2.0  
dz_dt_manual = dz_dx * dx_dt + dz_dy * dy_dt  

# 自动求导验证  
z.backward()  
dz_dt_auto = t.grad  

print(f"手动计算 dz/dt: {dz_dt_manual.item()}")  
print(f"自动求导 dz/dt: {dz_dt_auto.item()}")

代码解释：定义 $z = x^2 + y^2$ ， $x = t$ ， $y = 2t$ 。手动用多元链式法则计算 $dz/dt = 2x \cdot 1 + 2y \cdot 2$ ，代入 $t=1$ 得 $2 \cdot 1 + 4 \cdot 2 = 10$ 。自动求导验证结果一致，体现多元链式法则在 LLM 梯度计算中的基础作用。

Q36: 证明 Green 定理 $\oint_{C} (P dx + Q dy) = \iint_{D} \left( \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} \right) dx dy$

Green 定理是啥？

Green 定理建立了平面闭曲线 C 上的曲线积分与 C 所围区域 D 上的二重积分的联系。比如，计算一个闭合路径上的做功（ $P dx + Q dy$ ），可转化为区域内的某种 “源汇” 分布（ $\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y}$ ）的积分。

证明过程

对简单区域证明：先设 D 是 x - 型区域 $a \leq x \leq b$ ， $y_1(x) \leq y \leq y_2(x)$ 。计算 $\iint_{D} -\frac{\partial P}{\partial y} dx dy = \int_{a}^{b} [P(x, y_1(x)) - P(x, y_2(x))] dx = \oint_{C} P dx$ 。同理对 Q 处理，设 D 是 y - 型区域，得 $\iint_{D} \frac{\partial Q}{\partial x} dx dy = \oint_{C} Q dy$ 。
推广到一般区域：将复杂区域分割为简单区域，利用曲线积分的可加性和二重积分的可加性，消去内部边界的积分，得最终结果。

在 LLM 中的使用

LLM 优化中，若参数空间可近似为二维区域（如简化的双参数优化），Green 定理可转换积分形式，分析优化路径上的某种 “流量”。例如，在二维参数平面上，分析梯度流的积分性质，优化采样路径。但更多是理论分析，为复杂高维优化提供思路借鉴。

代码示例（验证 Green 定理）：

import torch  
import numpy as np  
from scipy.integrate import dblquad, quad  

# 定义P和Q  
def P(x, y):  
    return -y  
def Q(x, y):  
    return x  

# 计算曲线积分（单位圆）  
def curve_integral():  
    # 用参数方程 x = cosθ, y = sinθ  
    def integrand(theta):  
        x = np.cos(theta)  
        y = np.sin(theta)  
        dx_dtheta = -np.sin(theta)  
        dy_dtheta = np.cos(theta)  
        return P(x, y) * dx_dtheta + Q(x, y) * dy_dtheta  
    result, _ = quad(integrand, 0, 2 * np.pi)  
    return result  

# 计算二重积分  
def double_integral():  
    def inner(x):  
        return -1, 1  
    result, _ = dblquad(lambda y, x: (1 - (-1)), -1, 1, inner)  
    return result  

print(f"曲线积分结果: {curve_integral()}")  
print(f"二重积分结果: {double_integral()}")

代码解释：定义 $P = -y$ ， $Q = x$ ，计算单位圆上的曲线积分（ $\oint_{C} -y dx + x dy$ ）和对应的二重积分（ $\iint_{D} 2 dx dy$ ，因 $\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} = 1 - (-1) = 2$ ）。结果均为 $6.28$ （ $2\pi$ ），验证 Green 定理。这展示了 Green 定理在积分计算中的转换作用，虽 LLM 直接应用少，但数学思想可启发优化中的积分变换分析。