一文搞懂导数与偏导数：AI模型训练的数学基石

原创于 2026-01-04 10:33:55 发布 · 572 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

AI人工智能专栏收录该内容

11 篇文章

订阅专栏

在人工智能领域，尤其是在AI模型的训练过程中，导数与偏导数扮演着至关重要的角色，它们是理解和实现许多核心算法的数学基石。本文将深入浅出地介绍导数与偏导数的概念、计算方法以及它们在AI模型训练中的应用。

导数与偏导数

导数的基本概念

导数描述了函数在某一点处的变化率。从几何意义上讲，导数表示函数曲线在该点处的切线斜率。对于一个一元函数 (y = f(x))，其在点 (x_0) 处的导数定义为：

[
f^\prime(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}
]

这个定义可以理解为，当自变量 (x) 在 (x_0) 处有一个微小的变化 (\Delta x) 时，函数值 (y) 的变化量 (\Delta y = f(x_0 + \Delta x) - f(x_0)) 与 (\Delta x) 的比值在 (\Delta x) 趋近于 0 时的极限。

导数的计算示例

下面我们通过一个简单的函数 (f(x) = x^2) 来计算其导数。

根据导数的定义：

[
\begin{align*}
f^\prime(x) &= \lim_{\Delta x \to 0} \frac{(x + \Delta x)^2 - x^2}{\Delta x}\
&= \lim_{\Delta x \to 0} \frac{x^2 + 2x\Delta x + (\Delta x)^2 - x^2}{\Delta x}\
&= \lim_{\Delta x \to 0} \frac{2x\Delta x + (\Delta x)^2}{\Delta x}\
&= \lim_{\Delta x \to 0} (2x + \Delta x)\
&= 2x
\end{align*}
]

因此，函数 (f(x) = x^2) 的导数为 (f^\prime(x) = 2x)。

以下是使用Python代码来验证这个结果：

import sympy as sp

# 定义符号变量
x = sp.Symbol('x')

# 定义函数
f = x**2

# 求导数
df = sp.diff(f, x)

print("函数f(x) = x^2的导数为:", df)

常见函数的导数公式

为了方便计算，以下是一些常见函数的导数公式：

函数类型	函数表达式	导数表达式
常数函数	(f(x) = C)（(C) 为常数）	(f^\prime(x) = 0)
幂函数	(f(x) = x^n)（(n) 为实数）	(f^\prime(x) = nx^{n - 1})
指数函数	(f(x) = a^x)（(a > 0) 且 (a \neq 1)）	(f^\prime(x) = a^x \ln a)
对数函数	(f(x) = \log_a x)（(a > 0) 且 (a \neq 1)）	(f^\prime(x) = \frac{1}{x \ln a})
正弦函数	(f(x) = \sin x)	(f^\prime(x) = \cos x)
余弦函数	(f(x) = \cos x)	(f^\prime(x) = -\sin x)

这些公式可以直接用于计算函数的导数，大大提高了计算效率。

导数的运算法则

在实际计算中，我们经常会遇到复杂的函数，这时候需要使用导数的运算法则来求解。常见的导数运算法则有：

加法法则

如果 (u(x)) 和 (v(x)) 都是可导函数，那么 ((u(x) + v(x))^\prime = u^\prime(x) + v^\prime(x))。

减法法则

如果 (u(x)) 和 (v(x)) 都是可导函数，那么 ((u(x) - v(x))^\prime = u^\prime(x) - v^\prime(x))。

乘法法则

如果 (u(x)) 和 (v(x)) 都是可导函数，那么 ((u(x)v(x))^\prime = u^\prime(x)v(x) + u(x)v^\prime(x))。

除法法则

如果 (u(x)) 和 (v(x)) 都是可导函数，且 (v(x) \neq 0)，那么 ((\frac{u(x)}{v(x)})^\prime = \frac{u^\prime(x)v(x) - u(x)v^{\prime(x)}{v(x)}2})。

以下是使用Python代码来验证乘法法则的示例：

import sympy as sp

# 定义符号变量
x = sp.Symbol('x')

# 定义两个函数
u = x**2
v = sp.sin(x)

# 计算乘积的导数（使用乘法法则）
uv_prime = sp.diff(u, x) * v + u * sp.diff(v, x)

# 直接计算乘积的导数
uv = u * v
uv_prime_direct = sp.diff(uv, x)

print("使用乘法法则计算的导数:", uv_prime)
print("直接计算的导数:", uv_prime_direct)

偏导数的基本概念

在AI模型中，我们经常会遇到多元函数，即函数的自变量有多个。对于多元函数，我们需要引入偏导数的概念。偏导数是指在多元函数中，固定其他自变量，只对其中一个自变量求导数。

对于一个二元函数 (z = f(x, y))，其关于 (x) 的偏导数定义为：

[
\frac{\partial z}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x + \Delta x, y) - f(x, y)}{\Delta x}
]

其关于 (y) 的偏导数定义为：

[
\frac{\partial z}{\partial y} = \lim_{\Delta y \to 0} \frac{f(x, y + \Delta y) - f(x, y)}{\Delta y}
]

偏导数的计算示例

下面我们通过一个简单的二元函数 (f(x, y) = x^2 + y^2) 来计算其偏导数。

计算关于 (x) 的偏导数时，将 (y) 看作常数：

[
\frac{\partial f}{\partial x} = 2x
]

计算关于 (y) 的偏导数时，将 (x) 看作常数：

[
\frac{\partial f}{\partial y} = 2y
]

以下是使用Python代码来计算这个二元函数的偏导数：

import sympy as sp

# 定义符号变量
x, y = sp.symbols('x y')

# 定义函数
f = x**2 + y**2

# 计算关于x的偏导数
df_dx = sp.diff(f, x)

# 计算关于y的偏导数
df_dy = sp.diff(f, y)

print("函数f(x, y) = x^2 + y^2关于x的偏导数为:", df_dx)
print("函数f(x, y) = x^2 + y^2关于y的偏导数为:", df_dy)

高阶偏导数

类似于高阶导数，我们也可以定义高阶偏导数。对于一个二元函数 (z = f(x, y))，其二阶偏导数有：

(\frac{\partial^2 z}{\partial x^2} = \frac{\partial}{\partial x}(\frac{\partial z}{\partial x}))
(\frac{\partial^2 z}{\partial y^2} = \frac{\partial}{\partial y}(\frac{\partial z}{\partial y}))
(\frac{\partial^2 z}{\partial x \partial y} = \frac{\partial}{\partial x}(\frac{\partial z}{\partial y}))
(\frac{\partial^2 z}{\partial y \partial x} = \frac{\partial}{\partial y}(\frac{\partial z}{\partial x}))

在一定条件下，(\frac{\partial^2 z}{\partial x \partial y} = \frac{\partial^2 z}{\partial y \partial x})。

以下是使用Python代码来计算二元函数 (f(x, y) = x^2 + y^2) 的二阶偏导数：

import sympy as sp

# 定义符号变量
x, y = sp.symbols('x y')

# 定义函数
f = x**2 + y**2

# 计算二阶偏导数
df_dx2 = sp.diff(f, x, x)
df_dy2 = sp.diff(f, y, y)
df_dxdy = sp.diff(f, x, y)
df_dydx = sp.diff(f, y, x)

print("函数f(x, y) = x^2 + y^2关于x的二阶偏导数为:", df_dx2)
print("函数f(x, y) = x^2 + y^2关于y的二阶偏导数为:", df_dy2)
print("函数f(x, y) = x^2 + y^2关于x和y的混合二阶偏导数为:", df_dxdy)
print("函数f(x, y) = x^2 + y^2关于y和x的混合二阶偏导数为:", df_dydx)

导数与偏导数在AI模型训练中的应用

在AI模型训练中，导数与偏导数主要用于优化模型的参数。常见的优化算法如梯度下降法，就是基于导数和偏导数的思想。

梯度下降法

梯度下降法是一种迭代优化算法，用于寻找函数的最小值。对于一个多元函数 (J(\theta))，其中 (\theta) 是模型的参数向量，梯度下降法的更新公式为：

[
\theta_{new} = \theta_{old} - \alpha \nabla J(\theta_{old})
]

其中，(\alpha) 是学习率，(\nabla J(\theta_{old})) 是函数 (J(\theta)) 在 (\theta_{old}) 处的梯度，梯度是一个向量，其每个分量就是函数关于相应自变量的偏导数。

以下是一个简单的使用梯度下降法求解一元函数 (f(x) = x^2) 最小值的Python代码示例：

import numpy as np
import matplotlib.pyplot as plt

# 定义目标函数
def f(x):
    return x**2

# 定义目标函数的导数
def df(x):
    return 2 * x

# 初始化参数
x = 2
learning_rate = 0.1
num_iterations = 100

# 存储每次迭代的x和f(x)值
x_values = [x]
f_values = [f(x)]

# 梯度下降迭代
for i in range(num_iterations):
    gradient = df(x)
    x = x - learning_rate * gradient
    x_values.append(x)
    f_values.append(f(x))

# 绘制迭代过程
plt.plot(x_values, f_values, 'bo-')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Gradient Descent for f(x) = x^2')
plt.show()

总结

导数与偏导数是AI模型训练的数学基石，它们为我们理解函数的变化率和优化模型的参数提供了重要的工具。通过掌握导数与偏导数的基本概念、计算方法和运算法则，我们可以更好地理解和实现各种AI算法。在实际应用中，梯度下降法等优化算法正是基于导数和偏导数的思想来寻找函数的最小值，从而不断优化模型的参数。希望本文能够帮助你深入理解导数与偏导数在AI模型训练中的重要作用。