自然语言处理/机器学习领域常用数学符号及其KaTeX（Markdown/LaTeX公式）写法

原创已于 2025-09-23 15:47:57 修改 · 3.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#NLP #ML #DL #深度学习 #机器学习 #自然语言处理 #数学符号

于 2023-07-25 12:54:06 首次发布

人工智能学习笔记专栏收录该内容

277 篇文章

订阅专栏

诸神缄默不语-个人技术博文与视频目录

优快云的Markdown编辑器用 $...$ 就可以渲染公式了，有的编辑器可能还需要再加一层``

符号	公式写法	名称	简短介绍
$\mathbb{R}$	`\mathbb{R}`	实数集	所有实数的集合。
$\begin{pmatrix}a & b\\ c & d\end{pmatrix}$	`\begin{pmatrix}a & b\\ c & d\end{pmatrix}`	矩阵	用来表示二维数组或线性变换。
$\mathcal{T} \in \mathbb{R}^{I \times J \times K}$	`\mathcal{T} \in \mathbb{R}^{I \times J \times K}`	张量	多维数组，比矩阵维数更高。
$A^T$	`A^T`	转置	把矩阵的行列互换。
$\sigma(x)=\frac{1}{1+e^{-x}}$	`\sigma(x)=\frac{1}{1+e^{-x}}`	Sigmoid 激活函数	神经网络中常用的 S 型激活函数。
$\mathrm{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}$	`\mathrm{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}`	softmax 函数	多分类输出归一化。
$\mathrm{ReLU}(x)=\max(0, x)$	`\mathrm{ReLU}(x)=\max(0, x)`	ReLU 激活函数	常用非线性激活函数。
$\mathrm{softplus}(x) = \log(1 + e^x)$	`\mathrm{softplus}(x) = \log(1 + e^x)`	softplus 函数	平滑版 ReLU。
$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$	`\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}`	tanh 激活函数	常用激活函数，输出在 ((-1,1)) 区间。
$\langle u, v \rangle$	`\langle u, v \rangle`	点积／内积	向量间的内积。
$\odot B$	`A \odot B`	哈达玛积（Hadamard product）	对应元素相乘的矩阵乘积。
$\sum_{i=1}^n x_i$	`\sum_{i=1}^n x_i`	求和	把一串数加起来。
$\prod_{i=1}^n x_i$	`\prod_{i=1}^n x_i`	求积	连乘一串数。
$\mathcal{O}(n \log n)$	`\mathcal{O}(n \log n)`	复杂度（时间／空间）	算法随着输入规模的增长，其时间或空间开销渐近被 (n \log n) 控制。
$\mathbb{E}_{x\sim p}[f(x)]$	`\mathbb{E}_{x\sim p}[f(x)]`	期望	随机变量的平均值。
$\propto x$	`y \propto x`	正比	表示 (y) 与 (x) 成正比。
$\lim_{x \to 0} \frac{\sin x}{x} = 1$	`\lim_{x \to 0} \frac{\sin x}{x} = 1`	极限	函数在某点附近的趋近值。
$\int_a^b f(x)\,dx$	`\int_a^b f(x)\,dx`	积分	连续求和，一种累积量。
$\nabla_x L(\theta)$	`\nabla_x L(\theta)`	梯度	表示函数对参数的偏导／变化率向量。
$\theta \leftarrow \theta - \eta \nabla_\theta L(\theta)$	`\theta \leftarrow \theta - \eta \nabla_\theta L(\theta)`	梯度下降更新	参数朝损失函数下降方向更新。
$\frac{d}{dx} f(g(x)) = f'(g(x))\,g'(x)$	`\frac{d}{dx} f(g(x)) = f'(g(x)) g'(x)`	链式法则／复合函数的导数	函数复合求导。
$\frac{\partial f}{\partial x}$	`\frac{\partial f}{\partial x}`	偏导数	多元函数中对某一个变量求导。
$\nabla^2 f(x)$	`\nabla^2 f(x)`	Hessian 矩阵（二阶偏导矩阵）	用于判断极值／曲率性质。
$\Delta f = \nabla^2 f$	`\Delta f = \nabla^2 f`	拉普拉斯算子	在偏微分方程、图模型等场景中描述二阶导数之和。
$1_{\{x>0\}}$	`1_{\{x>0\}}`	指标函数	如果条件成立取 1，否则取 0。
$\delta_{ij} = \begin{cases}1 & i=j \\ 0 & i\neq j\end{cases}$	`\delta_{ij} = \begin{cases}1 & i=j \\ 0 & i\neq j\end{cases}`	Kronecker delta	等于指标函数的一种形式，用于简化张量／矩阵表达。
$\log x,\ \ln x$	`\log x, \ln x`	对数	自然对数或其他底的对数。
$\int f(\tau) g(t-\tau)\,d\tau$	`(f * g)(t) = \int f(\tau) g(t-\tau)\,d\tau`	卷积	用于信号处理／卷积神经网络等。
$\epsilon \sim \mathcal{N}(0, \sigma^2)$	`\epsilon \sim \mathcal{N}(0, \sigma^2)`	误差项／噪声	随机误差或噪声分布。
$\|x\|_1 = \sum_i \|x_i\|$	`\|x\|_1 = \sum_i \|x_i\|`	L1 范数	对向量元素绝对值求和。
$x\|_2$	`\|x\|_2`	2-范数（范式）	衡量向量或矩阵的“长度”或“大小”。
$\|x\|_\infty = \max_i \|x_i\|$	`\|x\|_\infty = \max_i \|x_i\|`	L∞ 范数／最大范数	向量中最大绝对值。
$D_{\mathrm{KL}}(p \| q) = \sum_x p(x) \log \frac{p(x)}{q(x)}$	`D_{\mathrm{KL}}(p \| q) = \sum_x p(x) \log \frac{p(x)}{q(x)}`	KL 散度	衡量两个概率分布之间的信息差异。
$-\sum_x p(x)\log p(x)$	`H(p) = -\sum_x p(x)\log p(x)`	熵	分布的不确定性。
$-\sum_x p(x) \log q(x)$	`H(p, q) = -\sum_x p(x) \log q(x)`	交叉熵	衡量两个分布间差异。
$max_i x_i, \; \min_i x_i$	`\max_i x_i, \min_i x_i`	最大／最小值	求一组数中的最大／最小值。