数学基础精要-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43269174/article/details/100124783

1 线性代数

1.1 基本概念

向量 (vector)：未特殊说明的情况下，所有的向量都默认为列向量；
$\vec{x}=(x_1,...,x_n)^T=\begin{bmatrix}x_1\\\vdots \\x_n \end{bmatrix}\in\mathbb{R}^n$
矩阵 (matrix)：同时也可以用 $(x_{i,j})_{n\times d}$ 或 $[x_{i,j}]_{n\times d}$ 表达；
$X=\begin{bmatrix} x_{1,1} & \cdots & x_{1,d} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,d} \end{bmatrix}\in\mathbb{R}^{n\times d}$

1.2 运算

点积 (dot product)：向量乘积；其中，点积为 0 的两个向量相互正交 (othogonal)；
$\vec{x}^T\cdot \vec{y}=\sum_ix_iy_i$
矩阵乘积 (matrix multiplication)：如其名；
$X_{n\times d}\cdot Y_{d\times c}=\begin{bmatrix} \sum_i^d x_{1,i}y_{i,1} & \cdots & \sum_i^d x_{1,i}y_{i,c} \\ \vdots & \ddots & \vdots \\ \sum_i^d x_{n,i}y_{i,1} & \cdots & \sum_i^d x_{n,i}y_{i,c} \end{bmatrix}$
迹 (trace)： $t r (X)$ ；对角线上所有元素之和；
$tr(X)=\sum_ix_{i,i}$
范数 (norm)： $F$ 等于 1 时称为 $L_1$ 范数， $F$ 等于 2 时称为 $L_2$ 范数，依此类推；向量的 $L_2$ 范数中文里又称为向量的模，可以简化为 $||\vec{x}||$ ，代表了向量的长度；
$||X||_F=\Big(\sum_{i,j}|x_{i,j}|^F\Big)^{\frac{1}{F}}$
行列式 (determinant)：记为 $d e t (X)$ 或 $∣ X ∣$ ；仅对于方阵；
$det(X)=\sum_{i=0}^{n-1}\Big(\prod_{j=1}^{n}x_{j,i+j}-\prod_{j=0}^{n-1}x_{n-j,i+j+1}\Big),~~~~x_{i,k}=x_{i,k-n}~~\text{if}~~k>n$
余子式 (cofactor)： $M_{i,j}$ 代表从 $X$ 中删去第 $i$ 行和第 $j$ 列后矩阵的行列式；
$A_{i,j}=(-1)^{i+j}M_{i,j}$
伴随矩阵 (adjoint matrix)：
$A^*=\begin{bmatrix} A_{1,1} & \cdots & A_{n,1} \\ \vdots & \ddots & \vdots \\ A_{1,n} & \cdots & A_{n,n} \end{bmatrix}$
逆矩阵 (inverse matrix)： $X^{-1}$ ； $X^{-1}X=I$ ；
$X^{-1}=\frac{A^*}{det(A)}$
哈达马积 (Hadamard)：又称为逐元素积；
$X\circ Y=\begin{bmatrix} x_{1,1}y_{1,1} & \cdots & x_{1,d}y_{1,d} \\ \vdots & \ddots & \vdots \\ x_{n,1}y_{n,1} & \cdots & x_{n,d}y_{n,d} \end{bmatrix}$
克罗内克积 (Kronecker product)：
$X\otimes Y=\begin{bmatrix} x_{1,1}Y & \cdots & x_{1,d}Y \\ \vdots & \ddots & \vdots \\ x_{n,1}Y & \cdots & x_{n,d}Y \end{bmatrix}$
笛卡尔乘积 (Cartisian product)：
$A\times B=\{(a,b)|a\in A,b\in B\}$

1.3 求导

一阶，对向量：
$\frac{\partial (\vec{a}^T\vec{x})}{\partial \vec{x}}=\vec{a}$

$\frac{\partial (\vec{x}^TA\vec{x})}{\partial \vec{x}}=(A+A^T)\vec{x}$

$\frac{\partial [(A\vec{x}+\vec{a})^TC(B\vec{x}+\vec{b})]}{\partial \vec{x}}=A^TC(B\vec{x}+\vec{b})+B^TC(A\vec{x}+\vec{a})$

一阶，对矩阵
$\frac{\partial (\vec{a}^TX\vec{b})}{\partial X}=\vec{a}\vec{b}^T=\vec{a} \otimes \vec{b}$

$\frac{\partial (\vec{a}^TX^T\vec{b})}{\partial X}=\vec{b}\vec{a}^T=\vec{b} \otimes \vec{a}$

$\frac{\partial (\vec{a}^TX^TX\vec{b})}{\partial X}=X(\vec{a}\vec{b}^T+\vec{b}\vec{a}^T)$

$\frac{\partial (\vec{b}^TX^TAX\vec{c})}{\partial X}=A^TX\vec{b}\vec{c}^T+AX\vec{c}\vec{b}^T$

$\frac{\partial [(X\vec{b}+\vec{c})A(X\vec{b}+\vec{c})]}{\partial X}=(A+A^T)(X\vec{b}+\vec{c})\vec{b}^T$

1.4 偏导

以下仅呈现部分二维范围内的偏导结果；

一阶，标量对标量：
$\frac{\partial z}{\partial x}$
一阶，标量对向量：
$\frac{\partial z}{\partial \vec{x}}=\big(\frac{\partial z}{\partial x_1},...,\frac{\partial z}{\partial x_n}\big)^T$
一阶，标量对矩阵：
$\frac{\partial z}{\partial X}=\begin{bmatrix} \frac{\partial z}{\partial x_{1,1}} & \cdots & \frac{\partial z}{\partial x_{1,d}} \\ \vdots & \ddots & \vdots \\ \frac{\partial z}{\partial x_{n,1}} & \cdots & \frac{\partial z}{\partial x_{n,d}} \end{bmatrix}$
一阶，向量对标量：
$\frac{\partial \vec{z}}{\partial x}=\big(\frac{\partial z_1}{\partial x},...,\frac{\partial z_n}{\partial x}\big)^T$
一阶，向量对向量：即 雅各比矩阵 (Jaccob matrix)；
$\frac{\partial \vec{z}}{\partial \vec{x}}=\begin{bmatrix} \frac{\partial z_1}{\partial x_{1}} & \cdots & \frac{\partial z_1}{\partial x_{d}} \\ \vdots & \ddots & \vdots \\ \frac{\partial z_n}{\partial x_{1}} & \cdots & \frac{\partial z_n}{\partial x_{d}} \end{bmatrix}$
一阶，矩阵对标量：
$\frac{\partial Z}{\partial x}=\begin{bmatrix} \frac{\partial z_{1,1}}{\partial x} & \cdots & \frac{\partial z_{1,d}}{\partial x} \\ \vdots & \ddots & \vdots \\ \frac{\partial z_{n,1}}{\partial x} & \cdots & \frac{\partial z_{n,d}}{\partial x} \end{bmatrix}$
二阶，标量对向量：即 海森矩阵 (Hessian matrix)；
$\frac{\partial z}{\partial \vec{x}}=\begin{bmatrix} \frac{\partial^2 z}{\partial x_{1}\partial x_{1}} & \cdots & \frac{\partial^2 z}{\partial x_{1}\partial x_{d}} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2 z}{\partial x_{n}\partial x_{1}} & \cdots & \frac{\partial^2 z}{\partial x_{n}\partial x_{d}} \end{bmatrix}$

1.5 矩阵分解

特征分解 (eigen decomposition)：从方阵 $A$ 中提取满足 $\lambda \vec{x}=A\vec{x}$ 的 $\lambda$ 与 $\vec{x}$ ；其中， $\lambda$ 称为 特征值 (eigen value)， $\vec{x}$ 称为 $A$ 的 特征向量 (eigen vector)； $\Sigma$ 为包含特征值的对角矩阵， $W$ 中的第 $i$ 列与 $\Sigma$ 的第 $i$ 个元素分别为矩阵 $A$ 的第 $i$ 个特征向量和第 $i$ 个特征值；同时，所有的特征向量相互正交； $WW^T=I$ ；
$A=W\Sigma W^{T}$
奇异值分解 (singular value decomposition)：当 $A$ 不为方阵时，转而对 $A$ 的协方差矩阵进行的特征分解；得出的 $U$ 称为 $A$ 的 左奇异矩阵 (left singular matrix)，列向量为 左奇异向量 (left sigular vector)； $V$ 称为 $A$ 的 右奇异矩阵 (right singular matrix)，列向量同理； $\Sigma$ 为奇异值矩阵，对角线上依次排列着原矩阵 $A$ 从大到小特征值的平方根； $UV^T=I$ ；
$A^TA=U\Sigma V^T$

1.6 正定矩阵

半正定 (positive semi-definite)：对于任意 $x$ ， $x^TAx\ge 0$ ；所有特征值 $\lambda_i\ge 0$ 。
正定 (positive definite)：对于任意 $x$ ， $x^TAx> 0$ ；所有特征值 $\lambda_i> 0$ 。
半负定 (negative semi-definite)：对于任意 $x$ ， $x^TAx\le 0$ ；所有特征值 $\lambda_i\le 0$ 。
负定 (negative definite)：对于任意 $x$ ， $x^TAx< 0$ ；所有特征值 $\lambda_i<0$ 。
不定 (indefinite)：既非半正定，也非半负定；特征值有正有负。

1.7 相似性

余弦相似度 (Cosine Similarity)：空间中向量夹角的余弦值，用于衡量向量的方向是否一致；
$cos(\vec{x},\vec{y})=\frac{\vec{x}\cdot \vec{y}}{||\vec{x}||\cdot ||\vec{y}||}$
欧式距离 (Euclidean Distance)：两点之间的最短距离，是对于向量长度和方向的综合评价标准；
$\text{Euclidean}(\vec{x},\vec{y})=||\vec{x}-\vec{y}||=\big(\sum_i|x_i-y_i|^2\big)^{\frac{1}{2}}$
曼哈顿距离 (Manhattan Distance)：两点之间的棋盘距离，在特定场景下效用显著；
$\text{Manhattan}(\vec{x},\vec{y})=\sum_i|\vec{x}_i-\vec{y}_i|$
闵氏距离 (Minkowski Distance)：欧式距离和曼哈顿距离的泛化版本；
$\text{Minkowski}(\vec{x},\vec{y})=\big(\sum_i|x_i-y_i|^p\big)^{\frac{1}{p}}$
相关系数 (Correlation)：统计学的常见概念，衡量同质化向量的元素协同变化趋势；
$\rho(\vec{x},\vec{y})=\frac{Cov(\vec{x},\vec{y})}{\sigma_{\vec{x}} \cdot \sigma_{\vec{y}}}=\frac{E(xy)-E(x)E(y)}{\sqrt{x)\cdot Var(y)}}$
KL 散度 (Kullback-Leibler Divergence)：又称为相对熵，是信息论领域的重要概念，衡量两种概率分布的单向相似度；
$\text{KL Divergence}(p||q)=\sum_{x\in q}p(x)log\frac{p(x)}{q(x)}$
Jaccard 相似度 (Jaccard Similarity)：交集长度除以并集长度，衡量两种集合或布尔序列的相似度；
$\text{Jaccard Similarity}(A,B)=\frac{|A\cap B|}{|A\cup B|}$

2 概率论

2.1 基本概念

假定 $X$ 为离散型变量， $x$ 为连续型变量；

概率质量函数 (PMF, abbr. probability mass function)； $P (X)$ ；
$\sum_iP(X_i)=1$
概率密度函数 (PDF, abbr. probability density function)； $p (x)$ ；
$\int p(x)dx=1$
条件概率 (conditional probability)：
$P (Y ∣ X)$
联合概率 (joint probability)：
$P (X, Y) = P (Y ∣ X) P (X)$
全概率 (total probability)：
$P(Y)=\sum_iP(Y|X_i)P(X)$
链式法则 (chain rule)：
$P(x_1,...,x_n)=P(x_1)\prod_{i=2}^nP(x_i|x_{i-1},...,x_1)$
独立事件 (independent events)：记作 $X\perp Y$ ；
$P (X, Y) = P (X) P (Y)$
条件独立事件 (conditional independent events)：记作 $X\perp Y| Z$ ；
$P (X, Y ∣ Z) = P (X ∣ Z) P (Y ∣ Z)$
联合概率分布 (joint probability distribution)： $p (x, y)$ ；
$P(X\le a,Y\le b)=\int_{-\infty}^a\int_{-\infty}^b p(x,y)dxdy=\int_{-\infty}^ap_x(x)dx=\int_{-\infty}^bp_y(y)dy$
先验概率 (prior probability)：
$P (X)$
后验概率 (posterior probability)：
$P (X ∣ Y)$
贝叶斯公式 (bayes formula)：
$P(X_i|Y)=\frac{P(Y|X_i)P(X_i)}{\sum_iP(Y|X_i)P(X_i)}$

2.2 期望与方差

期望 (mean)：常记为 $\mu$ ；若级数/极限不收敛，则期望不存在；
$\mathbb{E}[x]=\int p(x)xdx$
方差 (variance)：常记为 $\sigma^2$ ，表示 标准差 (standard deviation) 的平方；
$Var[x]=\mathbb{E}[(x-\mu)^2]=\mathbb{E}[x^2]-(\mathbb{E}[x])^2$
协方差 (covariance)：
$Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])]=\mathbb{E}[xy]-\mathbb{E}[x]\mathbb{E}[y]$
相关系数 (correlation)：常记为 $\rho$ ；
$Corr[x,y]=\frac{Cov[x,y]}{\sigma_x\sigma_y}\in[-1,1]$
其他性质：

$\mathbb{E}[xy]=\mathbb{E}[x]\mathbb{E}[y]$

$\mathbb{E}[kx+y]=k\mathbb{E}[x]+\mathbb{E}[y]$

$Var[kx+y]=k^2Var[x]+Var[y]+2Cov[kx,y]$

$Cov[kx_1+x_2,y]=Cov[kx1,y]+Cov[x2,y]$

2.3 概率分布

在这里插入图片描述

均匀分布 (uniform distribution)： $\mu=\frac{a+b}{2}$ ， $\sigma^2=\frac{(b-a)^2}{12}$ ；
$p(x)=\frac{1}{b-a},~~~~x\in[a,b]$
伯努利分布 (Bernoulli distribution)：又称为 二项分布； $\mu=n\phi$ ， $\sigma^2=n\phi(1-\phi)$ ；
$\dbinom{n}{x}\phi^x(1-\phi)^{n-x},~~~~x\in \mathbb{Z^+}$
正太分布 (normal distribution)：又称为 高斯分布 (Gaussian distribution)，记为 $x\sim N(\mu,\sigma^2)$ ；
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x-\mu)^2}{2\sigma^2}},~~~~x\in\mathbb{R}$
对数正态分布 (log-normal distribution)： $x$ 的对数符合正态分布，即 $\log(x)\sim N(\mu,\sigma^2)$ ；
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(\log(x)-\mu)^2}{2\sigma^2}},~~~~x\in\mathbb{R^+}$
多维正态分布 (multinormal distribution)：以二维为例；
$p(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{\frac{-1}{2(1-\rho^2)}[\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}]},~~~~x_1,x_2\in\mathbb{R}$
指数分布 (exponential distribution)： $\mu=\frac{1}{\lambda}$ ， $\sigma^2=\frac{1}{\lambda^2}$ ；
$p(x)=\frac{\lambda}{e^{\lambda x}},~~~~x\in\mathbb{R^+}$
泊松分布 (Poisson distribution): $\mu=\lambda$ ， $\sigma^2=\lambda$ ；
$p(x)=\frac{\lambda^x}{x!}e^{-\lambda},~~~~x\in\mathbb{Z}^+$
拉普拉斯分布 (Laplace distribution)： $\sigma=2\gamma^2$ ；
$p(x)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}},~~~~x\in\mathbb{R}$
贝塔分布 (Beta distribution)：记为 $x\sim B(\alpha,\beta)$ ； $\mu=\frac{\alpha}{\alpha+\beta}$ ；伽马函数 (Gamma function) $\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt=(x-1)!$ ；
$p(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1},~~~~x\in\mathbb{Z^+}$
迪利克雷分布 (Dirichlet distribution)：贝塔分布在二维以上的情形；
$\text{Dirichlet}(x_1,...,x_k)=\frac{\Gamma(n_1+...+n_k)}{\Gamma(n_1)...\Gamma(n_k)}x_1^{n_1-1}...x_k^{n_k-1},~~~~x_1,...,x_k\in\mathbb{Z^+}$
混合概率分布 (mixed probability distribution)：
$p(x)=\sum_iP(c_i)p(x|c_i)$

2.4 信息论

熵 (entropy)：描绘一组概率分布的混乱程度；
$H(X)=-\sum_{x\in X}p(x)\log p(x)\in\mathbb{R^+}$
条件熵 (conditional entropy)：条件概率的信息混乱程度；
$H(Y|X)=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y|x)\log p(y|x)$
互信息 (mutual information)：一组概率分布因另一组概率分布而减少的信息不确定性；
$I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$
KL 散度 (Kullback-Leibler Divergence)：又称为 相对熵，衡量两种概率分布的单向相似度；
$\text{KL Divergence}(Y||X)=\sum_{x\in X}p(x)\log\frac{p(x)}{q(x)}$
交叉熵 (cross entropy)：衡量两种标签维度上的概率准确度；
$\text{Cross Entropy}(p)=-y\log p(x)-(1-y)\log [1-p(x)],~~~~y\in\{0,1\}$

3 最优化

3.1 基本概念

在机器学习中，最优化 (optimization) 的目的在于求得参数 $\theta$ ，使得损失函数最小化：
$\min_\theta L(\theta)$ $s.t.\begin{cases} h_i(\theta)=0 \\ g_j(\theta)\le 0 \end{cases}$

损失函数 (loss function) $L$ 也可称为目标函数或代价函数； $h$ 和 $g$ 为 约束条件 (constraint)，诸如 $h$ 的约束条件称为 等式约束 (equality constraint)，诸如 $g$ 的约束条件称为 不等式约束 (inequality constraint)。其他概念：

无约束优化问题 (unconstraint optimization problem)：不存在约束条件时的优化问题；
有约束优化问题 (constraint optimization problem)：存在约束条件时的优化问题；
凸优化 (convex optimization)： $L$ 、 $h$ 、 $g$ 皆为凸函数时的优化问题；
线性规划 (linear programming)： $L$ 、 $h$ 、 $g$ 皆为线性函数时的优化问题；
非线性规划 (nonlinear programming)： $L$ 、 $h$ 、 $g$ 中任意一个为非线性函数时的优化问题；
二次规划 (quadratic programming)： $L$ 为二次函数，而 $h$ 、 $g$ 为线性函数时的优化问题；
多目标规划 (multi-objective programming)： $L$ 的输出为向量时的优化问题。

关于函数凸分析的一些等价信息：

	Convex	Concave
概念	$\lambda f(x)+(1-\lambda) f(y)\ge f[\lambda x+(1-\lambda)y]~~\forall x,y~\text{in}~X$	$\lambda f(x)+(1-\lambda) f(y)\le f[\lambda x+(1-\lambda)y]~~\forall x,y~\text{in}~X$
属性	The Hessian Matrix $\nabla^2 f(x)$ is positive semi-definite	The Hessian Matrix $\nabla^2 f(x)$ is negative semi-definite

3.2 拉格朗日乘子法

在求解有约束优化问题时，常常通过拉格朗日乘子法，将约束函数代入到目标函数中。以以下优化问题为例：
$min_xf(x)$ $\begin{cases}h(x)=0\\g(x)\le 0\end{cases}$

引入拉格朗日乘子 $\lambda$ ，将原问题转换为最大化拉格朗日函数的无约束优化 对偶问题 (dual problem)：
$\min_{x}\max_{\lambda_1,\lambda_2}L=f(x)+\lambda_1h(x)+\lambda_2g(x)$

建立 KKT 条件 (Karush-kuhn-Tucker condition)：
$\begin{cases} \frac{\partial L}{\partial x}=0 \\ \frac{\partial L}{\partial \lambda_1}=0 \\ \frac{\partial L}{\partial \lambda_2}=0 \\ h(x)=0 \\ \lambda_2g(x)=0\\ \lambda_2\ge 0\\ g(x)\le0 \end{cases}$

解出满足以上条件的 $x$ 代入目标函数 $f (x)$ 中，得出最优解。

3.3 凸优化

牛顿法 (Newton’s method)：泰勒的二阶展开式：
$f(x)=f(x_0)+f'(x_o)(x-x_0)+\frac{f''(x_o)}{2!}(x-x_0)^2+O((x-x_0)^2)$ 使用参数作为二阶展开式输入，损失函数作为输出， $L=f(W_{t-1}+\Delta W)\approx f(W_{t-1})+f'(W_{t-1})\Delta W+\frac{f''(W_{t-1})}{2!}\Delta W^2$ 上式可以改写为： $L(\Delta W)=\frac{f''(W_{t-1})}{2!}\Delta W^2+f'(W_{t-1})\Delta W+f(W_{t-1})$ 为求解 $\Delta W$ ，令 $L'(\Delta W)=0$ ， $f''(W_{t-1})\Delta W+f'(W_{t-1})=0$ 目标参数的更新值 $\Delta W=-f''(W_{t-1})^{-1}f'(W_{t-1})$ 若损失 $L$ 为标量，而 $W$ 为向量，则 $f''(W_{t-1})$ 为海森矩阵，因此上式又可以表示为： $\Delta W=-H_{t-1}^{-1}f'(W_{t-1})$ 计算完成，对原参数进行更新：
$W_t\leftarrow W_{t-1}+\alpha \Delta W$
拟牛顿法 (Quasi-Newton’s method)：为解决牛顿法直接计算海森矩阵逆矩阵的低效，采用生成海森矩阵近似的方式进行优化，知名的拟牛顿法包括 DFP 算法和 BFGS 算法，感兴趣的读者自行了解。
SGD (stochastic gradient descent)：应用在小批量数据的梯度下降法，原理与梯度下降法相同；给定模型输出的损失函数 $L=f(Z^{(k)},Y)$ 及最后一层模型参数 $W^{(k)}$ ， $W^{(k)}$ 的梯度表示为：
$\nabla W^{(k)}=\frac{\partial L}{\partial W^{(k)}}=\frac{\partial L}{\partial Z^{(k)}}\frac{\partial Z^{(k)}}{\partial W^{(k)}}$ 对于模型上游的参数 $W^{(i)}(i<k)$ ，梯度的反向传导遵循链式法则：
$\nabla W^{(i)}=\frac{\partial L}{\partial W^{(i)}}=\frac{\partial L}{\partial Z^{(k)}}\frac{\partial Z^{(k)}}{\partial Z^{(k-1)}}...\frac{\partial Z^{(i)}}{\partial W^{(i)}}$ 梯度计算完成后，使用负梯度对参数进行更新，其中 $\alpha$ 为学习率：
$W_t^{(i)}\leftarrow W_{t-1}^{(i)}+(-\alpha \nabla W^{(i)})$
Momentum：为避免参数更新方向的震荡，引入动量因子 $\beta$ ，
$V_t=\beta V_{t-1}+(1-\beta)\Delta W$ $W_t\leftarrow W_{t-1}+\alpha V_t$
RMSProp：为避免参数更新时学习率过大，引入动态学习率调整机制，
$S_t=\beta S_{t-1} + (1-\beta )\Delta W^2$ $W_t\leftarrow W_{t-1}+\alpha \frac{\Delta W}{\sqrt{S_t}+\varepsilon}$
Adam：结合 Momentum 与 RMSProp 两者的考虑，
$V_t=\beta_1 V_{t-1}+(1-\beta_1)\Delta W$ $S_t=\beta_2 S_{t-1} + (1-\beta_2 )\Delta W^2$ $\hat{V_t}=\frac{V_t}{1-\beta_1^2}$ $\hat{S_t}=\frac{S_t}{1-\beta_2^2}$ $W_t\leftarrow W_{t-1}+\alpha \frac{\hat{V_t}}{\sqrt{\hat{S_t}}+\varepsilon}$