LLM大模型中的基础数学工具——微分与积分

Q35: 推导多元链式法则 \frac{\partial z}{\partial t} = \sum_{i} \frac{\partial z}{\partial x_i} \frac{\partial x_i}{\partial t}

多元链式法则是啥?

多元链式法则用于求复合函数的偏导数。想象一个场景:z 是关于多个变量 x_1, x_2, \dots, x_n 的函数,而每个 x_i 又随 t 变化。此时,z 对 t 的变化率需综合各 x_i对 t 的影响。例如,z = x^2 + y^2x = ty = 2t,z 对 t 的导数就需用多元链式法则。

推导过程

设 z = f(x_1, x_2, \dots, x_n)x_i = g_i(t)。给 t 一个增量 \Delta t,则 x_i 有增量 \Delta x_i,z 有增量 \Delta z。由全增量公式:\Delta z = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \Delta x_i + o(\sqrt{(\Delta x_1)^2 + \dots + (\Delta x_n)^2}) 两边除以 \Delta t,取 \Delta t \to 0 的极限:\frac{\partial z}{\partial t} = \lim_{\Delta t \to 0} \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \frac{\Delta x_i}{\Delta t} = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} \frac{\partial x_i}{\partial t}

在 LLM 中的使用

LLM 训练中,计算梯度是关键。例如,模型输出 z 依赖多层参数 x_i(如权重矩阵),而 x_i 又在优化中随迭代步 t 更新。用多元链式法则求 \frac{\partial z}{\partial t},实现梯度反向传播。如 Transformer 中,计算损失对注意力层参数的导数,需通过多元链式法则层层传递。

代码示例

import torch  

# 定义函数 z = x² + y²,x = t,y = 2t  
t = torch.tensor(1.0, requires_grad=True)  
x = t  
y = 2 * t  
z = x ** 2 + y ** 2  

# 手动用多元链式法则求导  
dz_dx = 2 * x  
dz_dy = 2 * y  
dx_dt = 1.0  
dy_dt = 2.0  
dz_dt_manual = dz_dx * dx_dt + dz_dy * dy_dt  

# 自动求导验证  
z.backward()  
dz_dt_auto = t.grad  

print(f"手动计算 dz/dt: {dz_dt_manual.item()}")  
print(f"自动求导 dz/dt: {dz_dt_auto.item()}")  

代码解释:定义 z = x^2 + y^2x = ty = 2t。手动用多元链式法则计算 dz/dt = 2x \cdot 1 + 2y \cdot 2,代入 t=1 得 2 \cdot 1 + 4 \cdot 2 = 10。自动求导验证结果一致,体现多元链式法则在 LLM 梯度计算中的基础作用。


Q36: 证明 Green 定理 \oint_{C} (P dx + Q dy) = \iint_{D} \left( \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} \right) dx dy

Green 定理是啥?

Green 定理建立了平面闭曲线 C 上的曲线积分与 C 所围区域 D 上的二重积分的联系。比如,计算一个闭合路径上的做功(P dx + Q dy),可转化为区域内的某种 “源汇” 分布(\frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y})的积分。

证明过程

  1. 对简单区域证明:先设 D 是 x - 型区域 a \leq x \leq by_1(x) \leq y \leq y_2(x)。计算 \iint_{D} -\frac{\partial P}{\partial y} dx dy = \int_{a}^{b} [P(x, y_1(x)) - P(x, y_2(x))] dx = \oint_{C} P dx。同理对 Q 处理,设 D 是 y - 型区域,得 \iint_{D} \frac{\partial Q}{\partial x} dx dy = \oint_{C} Q dy
  2. 推广到一般区域:将复杂区域分割为简单区域,利用曲线积分的可加性和二重积分的可加性,消去内部边界的积分,得最终结果。

在 LLM 中的使用

LLM 优化中,若参数空间可近似为二维区域(如简化的双参数优化),Green 定理可转换积分形式,分析优化路径上的某种 “流量”。例如,在二维参数平面上,分析梯度流的积分性质,优化采样路径。但更多是理论分析,为复杂高维优化提供思路借鉴。

代码示例(验证 Green 定理)

import torch  
import numpy as np  
from scipy.integrate import dblquad, quad  

# 定义P和Q  
def P(x, y):  
    return -y  
def Q(x, y):  
    return x  

# 计算曲线积分(单位圆)  
def curve_integral():  
    # 用参数方程 x = cosθ, y = sinθ  
    def integrand(theta):  
        x = np.cos(theta)  
        y = np.sin(theta)  
        dx_dtheta = -np.sin(theta)  
        dy_dtheta = np.cos(theta)  
        return P(x, y) * dx_dtheta + Q(x, y) * dy_dtheta  
    result, _ = quad(integrand, 0, 2 * np.pi)  
    return result  

# 计算二重积分  
def double_integral():  
    def inner(x):  
        return -1, 1  
    result, _ = dblquad(lambda y, x: (1 - (-1)), -1, 1, inner)  
    return result  

print(f"曲线积分结果: {curve_integral()}")  
print(f"二重积分结果: {double_integral()}")  

代码解释:定义 P = -yQ = x,计算单位圆上的曲线积分(\oint_{C} -y dx + x dy)和对应的二重积分(\iint_{D} 2 dx dy,因 \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} = 1 - (-1) = 2)。结果均为 6.282\pi),验证 Green 定理。这展示了 Green 定理在积分计算中的转换作用,虽 LLM 直接应用少,但数学思想可启发优化中的积分变换分析。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值