梯度下降算法以及根据梯度信息反推出训练数据

文章探讨了梯度在多维函数极值寻找中的作用，特别是在深度学习中用于优化损失函数的梯度下降算法。通过分析梯度的性质，解释了为何使用梯度的偏导数作为权值更新的步长。同时，文章指出在深度学习的线性层中，梯度信息可能隐含原始输入数据的细节，这可能导致隐私泄露问题，特别是在使用交叉熵损失函数时。因此，理解并保护梯度信息的安全性对于防止隐私侵犯至关重要。

主要是联系一下数学中的梯度和深度学习中梯度的关系

什么是梯度

梯度是一个向量，有大小有方向
大小：梯度的模等于在该点可以取到的最大的变化率
方向：该点处取变化最大值时的那个方向

用来干什么？
可以用来快速找到多维变量函数的极值，在深度学习中一般是寻找损失函数的最小值。
对于求最小值或者极值这种问题，一般先想到的就是求解微分方程，但是函数很复杂的时候不容易求解，计算机怎么曲线救国呢，通过其擅长的凭借强大计算能力海量尝试，一步步把函数值试出来，这个试的过程前人总结了一个法则——Delta法则：它是一种启发式算法，核心思想是使用梯度下降算法寻找最值，让目标收敛到最佳解附近。
在这里插入图片描述

算法的实际做法就是一步步尝试改变权值w_i，逐步寻找损失函数l的最小值

问题也来了，为什么偏偏使用 $∂l∂wi\frac{\partial l}{\partial w_i}$ 作为一步的步长？其实这个问题也是，对于我们熟悉的梯度 $f=(∂l∂x1,∂l∂x2,…)grad\ f=(\frac{\partial l}{\partial x_1},\frac{\partial l}{\partial x_2},\ldots)$ ，为什么梯度等于后面这一大串，以至它拥有最大变化率以及其方向的性质

在讨论之前首先要提一下什么是变化率

以一元函数为例 $y = f (x)$
某一段函数的变化率： $△y△x=f(x0+△x)−f(x0)△x\frac{\triangle y}{\triangle x} = \frac{f(x_0 + \triangle x) - f(x_0)}{\triangle x}$
某一点函数的变化率： $lim⁡△x→0f(x0+△x)−f(x0)△x=f′(x0)\lim_{\triangle x\to 0} \frac{f(x_0 + \triangle x) - f(x_0)}{\triangle x} = f'(x_0)$

变化率：函数的增量与自变量沿某一方向增量比值的极限（在一元函数里，某一方向也就是x轴方向）

拓展到二元函数 $z = f (x, y)$
依据上面对变化率的定义中需要自变量的某一方向，此时的方向是由x和y共同影响的，那么先假设这个方向的单位向量为 $el⃗=(cos⁡α,cos⁡β)\vec{e_l} = (\cos\alpha, \cos\beta)$ ，在这个方向上的增量为t，那么增量向量（自变量）为 $(tcos⁡α,tcos⁡β)(t\cos\alpha,t\cos\beta)$ ，则 $变化率=lim⁡t→0+f(x0+tcos⁡α,y0+tcos⁡β)−f(x0,y0)t=fx(x0,y0)cos⁡α+fy(x0,y0)cos⁡β变化率=\lim_{t \to 0^{+}} \frac{f(x_0 + t\cos\alpha, y_0 + t\cos\beta) - f(x_0, y_0)}{t} = f_x(x_0, y_0)\cos\alpha + f_y(x_0, y_0)\cos\beta$

推导过程：

当变化率最大时，方向α是怎样的？
将变化率换一种表示方式，看作两向量的内积，其中 $\vec{g} = (f_x(x_0, y_0), f_y(x_0, y_0)) , \vec{e_l} = (\cos\alpha, \cos\beta)$
则变化率就变成了 $\lim_{t \to 0^{+}} \frac{f(x_0 + t\cos\alpha, y_0 + t\cos\beta) - f(x_0, y_0)}{t} = f_x(x_0, y_0)\cos\alpha + f_y(x_0, y_0)\cos\beta = \vec{g} \cdot \vec{e_l} = \lvert \vec{g} \rvert \lvert \vec{e_l} \rvert \cos \theta$
其中θ是 $∣g⃗∣\lvert \vec{g}\rvert$ 和 $∣el⃗∣\lvert \vec{e_l}\rvert$ 的夹角，当已知某一点坐标时， $g⃗=(fx(x0,y0),fy(x0,y0))\vec{g} = (f_x(x_0, y_0), f_y(x_0, y_0))$ 值可以确定，即 $∣g⃗∣\lvert \vec{g}\rvert$ 可得为一定值，同时单位向量 $∣el⃗∣=1\lvert \vec{e_l}\rvert=1$ ，那么当 $cos⁡θ=1\cos\theta=1$ 时变化率最大，此时 $g⃗∥el⃗\vec{g} \parallel \vec{e_l}$
也就是这个方向α是 $g⃗=(fx(x0,y0),fy(x0,y0))\vec{g} = (f_x(x_0, y_0), f_y(x_0, y_0))$ 方向时，变化率最大

可以向更高维函数推广
对于函数 $f(a,b,c,…)f(a,b,c,\ldots)$ ，向量 $(∂f∂a,∂f∂b,∂f∂c,…)(\frac{\partial f}{\partial a}, \frac{\partial f}{\partial b}, \frac{\partial f}{\partial c}, \ldots)$ 就是拥有最大变化率的数值及方向的梯度 $fgrad\ f$
$\ f = (\frac{\partial f}{\partial a}, \frac{\partial f}{\partial b}, \frac{\partial f}{\partial c}, \ldots)$
梯度 $fgrad\ f$ 方向上，函数 $f(a,b,c,…)f(a,b,c,\ldots)$ 的数值变化最大
以点 $(a0,b0,c0,…)(a_0,b_0,c_0,\ldots)$ 为例，在这一点的梯度为 $(∂f∂a0,∂f∂b0,∂f∂c0,…)(\frac{\partial f}{\partial a_0}, \frac{\partial f}{\partial b_0}, \frac{\partial f}{\partial c_0}, \ldots)$ ，也就是由 $(a0,b0,c0,…)(a_0,b_0,c_0,\ldots)$ 向 $(a0+t∂f∂a0,b0+t∂f∂b0,c0+t∂f∂c0,…)(a_0 + t\frac{\partial f}{\partial a_0}, b_0 + t\frac{\partial f}{\partial b_0}, c_0 + t\frac{\partial f}{\partial c_0}, \ldots)$ 移动是向函数值f变化幅度最大的方向移动

在梯度下降算法中，对于权值的更新也如同上述例子一样，我们希望找到损失函数l的最小值，因此一步步更新权值 $wi←wi−η∂l∂wiw_{i}\leftarrow w_{i} - \eta\frac{\partial l}{\partial w_{i}}$ ，使用 $∂l∂wi\frac{\partial l}{\partial w_{i}}$ 作为一步的步长

梯度中隐含的一些信息

在论文《Soteria: Provable Defense against Privacy Leakage in Federated Learning from Representation Perspective》中作者进一步探究了梯度 $∂l∂wi\frac{\partial l}{\partial w_{i}}$ 隐含了哪些信息。隐含的这些信息可能会让窃听者在窃听到梯度信息后，根据梯度还原出原始数据和标签。

在这里插入图片描述

在这里插入图片描述
若将批的划分等同于类的划分将得到下面的式子

式子（1）与式子（2）的批划分见下图。每一批中进行训练的数据属于同一标签同一类。
在这里插入图片描述

作者主要分析的是线性连接层的隐含信息

线性连接层是最后一层

当线性连接层是最后一层时， $∂l∂wi\frac{\partial l}{\partial w_{i}}$ 做进一步拆分
在这里插入图片描述
其中，r是这一层的输入，b为输出，y是将b进行归一化后的结果（对y的所有项求和为1），再与真实标签进行异或后生成y_c，之后计算出损失函数l

权重W是一个矩阵，求解 $∂l∂W\frac{\partial l}{\partial W}$
在这里插入图片描述

$[W_1, W_2, \ldots, W_k]$
$W1=[w11,w21,…,wn1]TW_1 = [w_{11}, w_{21}, \ldots, w_{n1}]^T$

$∂l∂w11=∂l∂b1∂b1∂w11=∂l∂b1∂(w11r1+w12r2+…)∂w11=∂l∂b1r1\frac{\partial l}{\partial w_{11}} = \frac{\partial l}{\partial b_1}\frac{\partial b_1}{\partial w_{11}} = \frac{\partial l}{\partial b_1}\frac{\partial (w_{11}r_1 + w_{12}r_2 + \ldots)}{\partial w_{11}} = \frac{\partial l}{\partial b_1}r_1$
$∂l∂w21=∂l∂b2∂b2∂w21=∂l∂b2∂(w21r1+w22r2+…)∂w21=∂l∂b2r1\frac{\partial l}{\partial w_{21}} = \frac{\partial l}{\partial b_2}\frac{\partial b_2}{\partial w_{21}} = \frac{\partial l}{\partial b_2}\frac{\partial (w_{21}r_1 + w_{22}r_2 + \ldots)}{\partial w_{21}} = \frac{\partial l}{\partial b_2}r_1$
$⋮\ \ \ \ \vdots$
$∂l∂wn1=∂l∂bn∂bn∂wn1=∂l∂bnr1\frac{\partial l}{\partial w_{n1}} = \frac{\partial l}{\partial b_n}\frac{\partial b_n}{\partial w_{n1}} = \frac{\partial l}{\partial b_n}r_1$

整合之后
$\frac{\partial l}{\partial W_1} = \begin{bmatrix} \frac{\partial l}{\partial b_1}r_1 \\ \frac{\partial l}{\partial b_2}r_1 \\ \vdots \\ \frac{\partial l}{\partial b_n}r_1 \end{bmatrix} = \begin{bmatrix} \frac{\partial l}{\partial b_1} \\ \frac{\partial l}{\partial b_2} \\ \vdots \\ \frac{\partial l}{\partial b_n} \end{bmatrix}r_1$
推广到任意行向量
$\frac{\partial l}{\partial W_i} = \begin{bmatrix} \frac{\partial l}{\partial b_1}r_i \\ \frac{\partial l}{\partial b_2}r_i \\ \vdots \\ \frac{\partial l}{\partial b_n}r_i \end{bmatrix} = \begin{bmatrix} \frac{\partial l}{\partial b_1} \\ \frac{\partial l}{\partial b_2} \\ \vdots \\ \frac{\partial l}{\partial b_n} \end{bmatrix}r_i = \frac{\partial l}{\partial \mathbf{b}}r_i$
再将行向量整合成矩阵得到如下式子
$\frac{\partial l}{\partial W} = \begin{bmatrix} \frac{\partial l}{\partial W_1}, \frac{\partial l}{\partial W_2},\ldots,\frac{\partial l}{\partial W_k} \end{bmatrix} = \begin{bmatrix} \frac{\partial l}{\partial b_1} \\ \frac{\partial l}{\partial b_2} \\ \vdots \\ \frac{\partial l}{\partial b_n} \end{bmatrix}\begin{bmatrix} r_1,r_2,\ldots,r_k \end{bmatrix} = \frac{\partial l}{\partial \mathbf{b}}(\mathbf{r})^T$

如果损失函数l使用交叉熵loss函数（类别为c时）： $lossc=−log⁡ebc∑k=1nebkloss_c = - \log\frac{e^{b_c}}{\sum_{k=1}^{n}e^{b_k}}$

那么上式中的 $∂l∂b\frac{\partial l}{\partial \mathbf{b}}$ 就可以尝试去表示
当数据的标签为class c时，
$\begin{align} \frac{\partial l_c}{\partial b_1} &= \frac{\partial (- \log \frac{e^{b_c}}{e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}})}{\partial b_1} = \frac{\partial ( - \log e^{b_c} + \log (e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}))}{\partial b_1} \nonumber \\ &= \frac{e^{b_1}}{e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}} = y_1 \nonumber \end{align}$
$\begin{align} \frac{\partial l_c}{\partial b_c} &= \frac{\partial (- \log \frac{e^{b_c}}{e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}})}{\partial b_c} = \frac{\partial ( - \log e^{b_c} + \log (e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}))}{\partial b_c} \nonumber \\ &= -1 + \frac{e^{b_c}}{e^{b_1} + \ldots + e^{b_c} + \ldots + e^{b_n}} = y_c - 1 \nonumber \end{align}$
$\frac{\partial l_c}{\partial \mathbf{b}} = \begin{bmatrix} \frac{\partial l_c}{\partial b_1} \\ \vdots \\ \frac{\partial l_c}{\partial b_c}\\ \vdots \\ \frac{\partial l_c}{\partial b_n} \end{bmatrix} = \begin{bmatrix} y_1 \\ \vdots \\ y_c - 1 \\ \vdots \\ y_n \end{bmatrix}$
并且存在关系式 $∣yc−1∣=∣y1∣+…+∣yc−1∣+∣yc+1∣+…|y_c - 1| = |y_1| + \ldots + |y_{c-1}| + |y_{c+1}| + \ldots$

因为 $∑iyi=1\sum_{i} y_i = 1$

通过观察 $∂lc∂b\frac{\partial l_c}{\partial \mathbf{b}}$ 可以发现，当训练数据为c时，第c行的幅度最大，在所有行都乘以一个相同的行向量 $(r)T(\mathbf{r})^T$ 时， $∂l∂Wi=∂l∂b(r)T\frac{\partial l}{\partial W_i} = \frac{\partial l}{\partial \mathbf{b}}(\mathbf{r})^T$ 这一行的幅度依旧最大。那么攻击者窃听到梯度信息后，找到幅度最大的一行，这一行就是 $(yc−1)(r)T(y_c - 1)(\mathbf{r})^T$ ，其中 $y_c - 1)$ 是一个常数， $(yc−1)(r)T(y_c - 1)(\mathbf{r})^T$ 近似可看为 $(r)T(\mathbf{r})^T$ 。这样就得到了这一层的输入 $r\mathbf{r}$ 。

结论：通过梯度 $∇W\nabla W$ 可以得到本层的输入数据 $r\mathbf{r}$ ，并且还知道这个数据所属的类别class c。

线性层作为中间层

线性层作为中间层时，会进行下面这样的数据变换

在这里插入图片描述
简化一下就是下面这种表达

这其中的激活函数 $σ\sigma$ 扮演了非常重要的角色，其主要作用是对所有的隐藏层和输出层添加一个非线性的操作

以一个三层全线性连接的神经网络为例
在这里插入图片描述
$\begin{align} & z_1 = W_1x + B_1 \nonumber \\ & z_2 = W_2\sigma(z_1) + B_2 \nonumber \\ & z_3 = W_3\sigma(z_2) + B_3 \nonumber \end{align}$
则所有 $∂l∂Wi\frac{\partial l}{\partial W_i}$ 可表达

这里的W_i和之前的不一样，之前的指一个权重矩阵的一列，是一个向量，这里代表第几层的权重，是一个矩阵

$\begin{align} & \frac{\partial l}{\partial W_1} = \frac{\partial l}{\partial z_3} \frac{\partial z_3}{\partial W_1} = \frac{\partial l}{\partial z_3}(\frac{\partial(W_3\sigma(z_2) + B_3)}{\partial \sigma(z_2)} \frac{\partial \sigma(z_2)}{\partial z_2} \frac{\partial(W_2\sigma(z_1) + B_2)}{\partial \sigma(z_1)} \frac{\partial \sigma(z_1)}{\partial z_1} \frac{\partial(W_1x + B_1)}{\partial W_1}) = \frac{\partial l}{\partial z_3}(W_3 \cdot \sigma'(z_2) \cdot W_2 \cdot \sigma'(z_1) \cdot x) \nonumber \\ & \frac{\partial l}{\partial W_2} = \frac{\partial l}{\partial z_3} \frac{\partial z_3}{\partial W_2} = \frac{\partial l}{\partial z_3}(\frac{\partial(W_3\sigma(z_2) + B_3)}{\partial \sigma(z_2)} \frac{\partial \sigma(z_2)}{\partial z_2} \frac{\partial (W_2\sigma(z_1) + B_2)}{\partial W_2}) = \frac{\partial l}{\partial z_3}(W_3 \cdot \sigma'(z_2) \cdot \sigma(z_1)) \nonumber \\ & \frac{\partial l}{\partial W_3} = \frac{\partial l}{\partial z_3}\frac{\partial z_3}{\partial W_3} = \frac{\partial l}{\partial z_3} \frac{\partial(W_3\sigma(z_2) + B_3)}{\partial W_3} = \frac{\partial l}{\partial z_3}\sigma(z_2) \nonumber \end{align}$
整理一下
$\begin{align} & \frac{\partial l}{\partial W_3} = \frac{\partial l}{\partial z_3}\sigma(z_2) \nonumber \\ & \frac{\partial l}{\partial W_2} = \frac{\partial l}{\partial z_3}(W_3 \cdot \sigma'(z_2) \cdot \sigma(z_1)) = \frac{\partial l}{\partial z_3}(\frac{\partial z_3}{\partial z'_2} \cdot \sigma'(z_2) \cdot \sigma(z_1)) \nonumber \\ & \frac{\partial l}{\partial W_1} = \frac{\partial l}{\partial z_3}(W_3 \cdot \sigma'(z_2) \cdot W_2 \cdot \sigma'(z_1) \cdot x) = \frac{\partial l}{\partial z_3}(\frac{\partial z_3}{\partial z'_2} \cdot \sigma'(z_2) \cdot \frac{\partial z_2}{\partial z'_1} \cdot \sigma'(z_1) \cdot x) \nonumber \end{align}$
如果一个等式其他项都已知，只有一项不知，则这一项是可求的
在这里插入图片描述
蓝色为已知，红色为可求，上式可逐步求出神经网络的输入数据x