CNN反向求导推导

最新推荐文章于 2024-02-26 11:53:40 发布

lansatiankong

最新推荐文章于 2024-02-26 11:53:40 发布

阅读量7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：【深度学习】文章标签： CNN 卷积神经网络反向求导

本文链接：https://blog.youkuaiyun.com/lansatiankongxxc/article/details/49666073

【深度学习】专栏收录该内容

5 篇文章

订阅专栏

本文主要是借助参考文献1《Notes on Convolutional Neural Networks》的内容，以及博客【2】和【3】里面的内容，对卷积神经网络的推导做个梳理。

激活函数

logistic function

σ (x) = 1 1 + e - x

$\sigma(x)=\frac{1}{1+e^{-x}}$
hyperbolic tangent

t a n h (x) = e 2 x - 1 e 2 x + 1

$tanh(x)=\frac{e^{2x}-1}{e^{2x}+1}$
两者之间的关系

t a n h (x) = 2 σ (2 x) - 1

$tanh(x)=2\sigma(2x)-1$
对激活函数求导，我们有

\partial t a n h ( x ) \partial x = 1 - t a n h (x) 2

$\frac{\partial tanh(x)}{\partial x}=1-tanh(x)^2$

\partial σ ( x ) \partial ( x ) = σ (x) (1 - σ (x))

$\frac{\partial \sigma(x)}{\partial(x)}=\sigma(x)(1-\sigma(x))$

Loss Function 及求导

一般定义pre-activation（输出层神经单元用k表示）：

a k = \sum h \in H L w h k b h

$a_k=\sum_{h\in H_L}w_{hk}b_h$
所以对于输出层，每个类别的概率可以用softmax函数来计算：

p (C k | x) = e a k \sum K k ' = 1 e a k '

$p(C_k|x)=\frac{e^{a_k}}{\sum_{k'=1}^{K}e^{a_{k'}}}$
ground truth 的类别z用个one-of-k维的向量来表示。这样的话，目标label的概率为

p (z | x) = \prod k = 1 K y z k k

$p(z|x)=\prod_{k=1}^{K}y_k^{z_k}$
对于损失函数，一般可以用negtative log likelihood

L(x,z)=−lnp(z|x) $\mathcal L(x,z)=-ln p(z|x)$ ，得到：

L (x, z) = (z - 1) l n (1 - y) - z l n y

$\mathcal L(x,z)=(z-1)ln(1-y)-zlny$
对于多分类的问题，可以有

L (x, z) = - \sum k = 1 K z k l n y k

$\mathcal L(x,z)=-\sum_{k=1}^{K}z_klny_k$
或者采用【1】中最小二乘形式的损失函数

E N = 1 2 \sum n = 1 N \sum k = 1 c (z n k - y n k) 2

$E^N=\frac{1}{2}\sum_{n=1}^N\sum_{k=1}^{c}(z_k^n-y_k^n)^2$

znk $z_k^n$ （【1】用

znk $z_k^n$ 表示）是第n个实例的ground truth的对应第k个维度的label (0 or 1表示是否是这个类别).
从这个形式可以看出来，最小化差方形式的损失函数，等价于同时最大化truth label的概率，最小化false label的概率。而negtative log likelihood 只是最大化truth label的概率。
Loss function对output以及pre activation的求导:

\partial L ( x , z ) \partial y k = - z k y k

$\frac{\partial \mathcal L(x,z)}{\partial y_k}=-\frac{z_k}{y_k}$
对于二分类的情况

\partial L ( x , z ) \partial y = - 1 - z 1 - y - z y = y - z y ( 1 - y )

$\frac{\partial \mathcal L(x,z)}{\partial y}=-\frac{1-z}{1-y}-\frac{z}{y}=\frac{y-z}{y(1-y)}$
利用链式法则，可以得到对于pre-activation的导数

\partial L ( x , z ) \partial a = \partial L ( x , z ) \partial y \partial y \partial a = y (1 - y) y - z y ( 1 - y ) = y - z

$\frac{\partial \mathcal L(x,z)}{\partial a}=\frac{\partial L(x,z)}{\partial y}\frac{\partial y}{\partial a}=y(1-y)\ \frac{y-z}{y(1-y)}=y-z$
对于多分类的偏导，也可以使用类似的方式求偏导

\partial L ( x , z ) \partial a k = \sum k' = 1 K \partial L ( x , z ) \partial y k ' \partial y k ' \partial a k

$\frac{\partial \mathcal L(x,z)}{\partial a_k}=\sum_{k'=1}^{K}\frac{\partial \mathcal L(x,z)}{\partial y_{k'}}\frac{\partial y_{k'}}{\partial a_k}$
最后可以得到

\partial L ( x , z ) \partial a k = y k - z k

$\frac{\partial \mathcal L(x,z)}{\partial a_k}=y_k-z_k$
我们用上标

l $l$ 表示该蚕食是位于第

l $l$ 层，当前层，那么当前层的输出可以表示为

x l = θ (a l), a l = W l x l + b l

$x^l=\theta (a^l), a^l=W^lx^l+b^l$

θ $\theta$ 是激活函数，可以取sigmoid

σ $\sigma$ 或是

tanh $tanh$ 函数。

反向传播

由于神经网络是有多层，但是只有输出层才有ground truth的label以及模型输出，根据“误差”向误差减小方向调整权值。但是对于隐含层，没有ground truth label，这就需要由输出层将“误差”传播到隐含层。这里的“误差”,是损失函数对pre-activation的偏导，也可以看做损失函数对于bias b的敏感度：

δ = \partial E \partial b = \partial E \partial a \partial a \partial b

$\delta=\frac{\partial E}{\partial b}=\frac{\partial E}{\partial a}\frac{\partial a}{\partial b}$
由

al=Wlxl+bl $a^l=W^lx^l+b^l$ 知道，

∂a∂b=1 $\frac{\partial a}{\partial b}=1$ ,所以这个解释也可以说的过去。下面是如何反向传播

δ $\delta$

δ l = \partial E \partial x l \partial x l \partial a l = \partial x l \partial a l \sum \partial E \partial a l + 1 \partial a l + 1 \partial x l = θ' (a l) \circ (W l + 1) T δ l + 1

$\delta^l=\frac{\partial E}{\partial x^l}\frac{\partial x^l}{\partial a^l}=\frac{\partial x^l}{\partial a^l}\sum \frac{\partial E}{\partial a^{l+1}}\frac{\partial a^{l+1}}{\partial x^l}=\theta '(a^l)\circ(W^{l+1})^T\delta^{l+1}$
其中

∘ $\circ$ 表示element-wise product。
对于输出层的

δ $\delta$ ，若是损失函数是negtative log，

δL=∂E∂a=y−z $\mathbf{\delta^L}=\frac{\partial E}{\partial a}=\mathbf{y} -\mathbf{z}$
粗体

y $\mathbf{y}$ 是softmax的输出概率，

z $\mathbf z$ 是目标label的one-of-k 向量。
对于差方损失，

δ $\delta$ 可以得到

δ L = θ' (a l) \circ (y n - z n)

$\mathbf \delta^L=\theta '(a^l)\circ (\mathbf y^n-\mathbf z^n)$
有了

δ $\delta$ ，就可以通过链式法则来求得对于中间层的偏导：

\partial E \partial W l = \partial E \partial a l \partial a l \partial W l = δ l (x l - 1) T

$\frac{\partial E}{\partial W^l}=\frac{\partial E}{\partial a^l}\frac{\partial a^l}{\partial W^l}=\delta^l (x^{l-1})^T$

ΔWl=−η∂E∂Wl $\Delta W^l=-\eta \frac{\partial E}{\partial W^l}$

η $\eta$ 是学习速率，【1】中介绍实际中对于每个

Wij $W_{ij}$ 都会有一个学习速率

ηij $\eta_{ij}$

卷积神经网络

卷积神经网络（CNN），含有两种类型的网络连接，卷积层和sub-sampling层。

卷积层

每个输出层可以由多个输入层卷积的组合得到，也就是说

x l j = θ (\sum i \in M j x l - 1 i * k l i j + b l j)

$x_j^l=\theta(\sum_{i\in M_j}x_i^{l-1}\ast k_{ij}^l+b_{j}^l)$
对于每个输出层map的每个输入层map，可以用不同的kernel

klij $k_{ij}^l$

Mj $M_j$ 表示第

j $j$ 输出map的输入map集合。

下采样层

下采样层每个输出层是对对应输入层的下采样，所以输入层输出层都是N

x l j = θ (β l j d o w n (x l - 1 j) + b l j)

$x_j^l=\theta(\beta_j^l down(x_j^{l-1})+b_j^l)$

down(.) $down(.)$ 表示下采样，一般来说，这个函数会对一个

n×n $n\times n$ 大小的block求和，然后乘以一个乘法 bias

β $\beta$ 和一个加法

b $b$ .

卷积层梯度的计算

类似于BP算法过程，首先是求得下一层敏感度和下一层权值的内积，然后做点乘。在CNN中，卷积层与sub-sampling层是依次挨着的。sub-sampling对nxn大小的block求和，可以看做权值是1。所以先要用nxn大小的全1矩阵与下一层敏感度矩阵做Kronecker积，完成权值相乘与上采样，得到与当前层敏感度大小map。然后与激活函数导数做点乘。
当然，【1】中提到了下采样之后用一个大小为 $\beta$ 的标量相乘，看做下采样层的权值都为 $\beta$ ，所以这里在计算完之后乘以一个 $\beta$ 。所以式子就是

δ l j = β l + 1 j (θ' \circ u p (δ l + 1 j))

$\delta^{l}_{j}=\beta ^{l+1}_{j}(\theta^{'}\circ up(\delta_{j}^{l+1}))$
其中，上采样就是与全1矩阵做一个Kronecker积

u p (x) = x \otimes 1 n \times n

$up(\mathbf{x})=\mathbf x\otimes \mathbf 1_{n\times n}$
这样的话，对于特定map的敏感度求和就得到了对应的bias偏导

\partial E \partial b j = \sum u, v (δ l j) u, v

$\frac{\partial E}{\partial b_j}=\sum_{u,v}(\delta_j^l)_{u,v}$
对权值求导就是该权值相连的前一层数据和和当前层的敏感度乘积，由于是共享权值，所以每个权值链接的不是单一输入输出，所以要对所有该权值连接的数据进行求和

\partial E \partial W l i j = \sum u, v (δ l j) u, v (p l - 1 i) u, v

$\frac{\partial E}{\partial W^l_{ij}}=\sum_{u,v}(\delta_{j}^{l})_{u,v}(p_{i}^{l-1})_{u,v}$
按照【1】中的说法这里单独记录kernel的每个权值在相邻两层的连接元素比较麻烦，但是由于kernel和out map以及input map都是矩形，而且卷积过程是顺序操作，显然可以用互相关来得到对应元素的乘积。可以使用matlab的卷积来进行互相关运算，只不过要先将数据进行翻转。
可以这么解释，假设一个

k×k $k\times k$ 大小的kernel和一个

N×N $N\times N$ 大小的图像进行卷积操作，生成的map是

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ ，对于kernel上的每个weight，会和原来图像的一个

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 大小的连续区域的所有元素进行乘积。假设

(1,1) $(1,1)$ 位置的kernel的weight，会和原来map（图像）右下方

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 的区域每个元素乘积，然后贡献到下层map的

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 的每个对应位置上。所以与（1,1）相关的元素是输入层map的右下方的

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 和输出层的

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 大小map。所以说反向传播过程中的偏导计算可以使用互相关操作来完成，用matlab代码：

\partial E \partial k l i , j = r o t 180 (c o n v 2 (x l - 1 i), r o t 180 (δ l j,' v a l i d'))

$\frac {\partial E}{\partial k_{i,j}^{l}}=rot180(conv2(x_{i}^{l-1}),rot180(\delta_j^{l},'valid'))$
注意到前面还有一个

rot180 $rot180$ 操作，那是因为（1,1）在输入层map对应的是右下方

(N−k+1)×(N−k+1) $(N-k+1)\times(N-k+1)$ 区域，所以互相关之后还是在右下方

(k,k) $(k,k)$ 位置，所以要旋转180度得到（1,1）位置。

下采样层梯度的运算

首先是计算敏感度map $\delta_j^l$ ，由反向传播计算下一层的敏感度 $\delta_{j}^{l+1}$ 计算，与kernel相乘然后与激活函数的导数做element-wise相乘。下一层是卷积操作，当前层map的每个元素通过kernel的不同链接与下一层的map的多个元素有链接。所以用下一层map敏感度与kernel进行互相关操作得到BP敏感度公式中权值和下层敏感度的乘积。

δ l j = θ' (a l j) \circ c o n v 2 (δ l + 1 j, r o t 180 (k l + 1 j),' f u l l')

$\delta_j^{l}=\theta^{'}(a^l_j)\circ conv2(\delta_{j}^{l+1},rot180(k_j^{l+1}),'full')$
注意到这里用的是full，在前向过程计算下层中，下层元素每维度少了

k−1,（n−k+1)×(n−k+1) $k-1,（n-k+1)\times(n-k+1)$ ，所以对于边缘，例如input map (1,1)位置，只和output map的（1,1）有关，所以需要用0补全然后再做互相关操作。
然后就是求参数

bj $b_j$ 和

βj $\beta_j$ 的偏导了。

bj $b_j$ 的偏导仍是把该层敏感度相加

\partial E \partial b j = \sum u, v (δ l j) u, v

$\frac{\partial E}{\partial b_j}=\sum_{u,v}(\delta_j^l)_{u,v}$
然后求权值偏导，首先保存下采样数据

d l j = d o w n (x l - 1 j)

$d_j^l=down(x_j^{l-1})$
然后对所有相连的数据相乘求和

\partial E \partial β j = \sum u, v (δ l j \circ d l j) u, v

$\frac{\partial E}{\partial \beta_j}=\sum_{u,v}(\delta_j^l\circ d_j^l)_{u,v}$

学习特征map的组合

现有的output map是由多个不同的map组合的，但是如何组合目前还是通过人工的方式进行选择，如何自动地进行学习哪些input map可以组成哪些output map呢？
我们设定 $\alpha_{ij}$ 是组成output map j时，input map i所占有的权重，所以就有：

x l j = θ (\sum i = 1 N i n α i j (x l - 1 i * k l i + b l j)

$x_j^{l}=\theta(\sum_{i=1}^{N_{in}}\alpha_{ij}(x_i^{l-1}\ast k_{i}^{l}+b_{j}^l)$
subject to

\sum i α i j = 1, a n d 0 \leq α i j \leq 1

$\sum_i \alpha_{ij}=1, ~~and ~~0\le \alpha_{ij}\le1$

αij $\alpha_{ij}$ 是一个概率，可以用softmax函数来表示

α i j = e x p ( c i j ) \sum k e x p ( c k j )

$\alpha_{ij}=\frac{exp(c_{ij})}{\sum_{k}exp(c_kj)}$

cij $c_{ij}$ 表示对应的weight，由于这里j都是一样，所以可以把下班j省立
对

cj $c_j$ 求偏导

\partial α k \partial c i = δ k i α i - α i α k

$\frac{\partial \alpha_k}{\partial c_i}=\delta_{ki}\alpha_i-\alpha_i\alpha_k$
这里的

δki $\delta_{ki}$ 是指示函数，k==i时为1，不等时为0.
再求损失函数对

αi $\alpha_i$ 的偏导

\partial E \partial α i = \partial E \partial a l \partial a l \partial α i = \sum u, v (δ l \circ (x l - 1 i * k l i)) u, v

$\frac{\partial E}{\partial \alpha_i}=\frac{\partial E}{\partial a^{l}}\frac{\partial a^{l}}{\partial \alpha_i}=\sum_{u,v}(\delta^{l}\circ (x_i^{l-1}\ast k_{i}^{l}))_{u,v}$
然后合并起来

\partial E \partial c i = \sum k \partial E \partial α k \partial α k \partial c i = α i (\partial E \partial α i - \sum k \partial E \partial α k α k)

$\frac{\partial E}{\partial c_i}=\sum_{k}\frac{\partial E}{\partial \alpha_k}\frac{\partial \alpha_k}{\partial c_i}=\alpha_i \left( \frac{\partial E}{\partial \alpha_i}-\sum_k\frac{\partial E}{\partial \alpha_k}\alpha_k \right)$

关于sparsity

加上1范数的regularization。

E ~ n = E n + λ \sum i . j | (α i, j) |

$\tilde{E}^n=E^n+\lambda\sum_{i.j}|(\mathbf{\alpha}_{i,j})|$
求导：

\partial Ω \partial c i = \sum k \partial Ω \partial α k \partial α k \partial c i = λ (| α i | - α i \sum k | α k |)

$\frac{\partial \Omega}{\partial c_i}=\sum_{k}\frac{\partial\Omega}{\partial \alpha_k}\frac{\partial \alpha_k}{\partial c_i}=\lambda(|\alpha_i|-\alpha_i\sum_k|\alpha_k|)$
整个偏导公式：

\partial E ~ n \partial c i = \partial E n \partial c i + \partial Ω \partial c i

$\frac{\partial \tilde{E}^n}{\partial c_i}=\frac{\partial E^n}{\partial c_i}+\frac{\partial \Omega}{\partial c_i}$
参考文献：
【1】Notes on Convolutional Neural Networks
【2】 http://blog.youkuaiyun.com/zouxy09/article/details/9993371
【3】 http://www.cnblogs.com/tornadomeet/p/3468450.html
【4】Supervised Learning with Recurrent Neural Networks