基于Winograd算法的卷积基本原理

最新推荐文章于 2022-11-28 16:54:12 发布

Puppy_L

最新推荐文章于 2022-11-28 16:54:12 发布

阅读量2.1k

点赞数 12

文章标签：卷积神经网络卷积数字信号处理

本文链接：https://blog.youkuaiyun.com/qq_36665989/article/details/119478927

版权

Winograd算法是一种快速卷积算法，用于减少卷积运算中的乘法数量，代价是适当增加加法数量。首次将Winograd算法用于神经网络卷积运算的文章为参考文献[1]。

本文将基于该文章和几篇博文，介绍其基本原理。

1.一维卷积 $F (2, 3)$

首先以卷积 $F (2, 3)$ 为例介绍Winograd算法如何实现一维卷积。 $F (2, 3)$ 表示卷积核大小为 $3\times1$ ，被卷积的向量大小为 $2 + 3 - 1 = 4$ 。将卷积核的权重记为 $w_{i}$ ，则 $F (2, 3)$ 的卷积核对应的列向量为
$w=\left[ \begin{array}{c} w_0\\ w_1\\ w_2 \end{array} \right]= \left[ w_0,w_1,w_2 \right]^T.$
同时，记被卷积的向量为
$k=\left[ \begin{array}{c} k_0\\ k_1\\ k_2\\ k_3 \end{array} \right]==\left[ k_0,k_1,k_2,k_3 \right]^T.$
一维卷积即卷积核在上述长度为4的被卷积的向量上滑动，分为下列两步。

1.1.第一步

被卷积向量的前3个元素与卷积核卷积，相关元素标红如下
$\left[ \red{k_0},\red{k_1},\red{k_2},k_3 \right]^T.$
得到的卷积结果记为
$r_0=\left[k_0,k_1,k_2\right] \left[ \begin{array}{c} w_0\\ w_1\\ w_2 \end{array} \right]= k_0w_0+k_1w_1+k_2w_2.$

1.2.第二步

被卷积向量的后3个元素与卷积核卷积，相关元素标红如下
$\left[ k_0,\red{k_1},\red{k_2},\red{k_3}. \right]^T.$
得到的卷积结果记为
$r_1=\left[k_1,k_2,k_3\right] \left[ \begin{array}{c} w_0\\ w_1\\ w_2 \end{array} \right]= k_1w_0+k_2w_1+k_3w_2.$

上述计算过程可以用矩阵向量相乘的形式表示：
$\left[ \begin{array}{c} r_0\\ r_1 \end{array} \right]= \left[ \begin{array}{ccc} k_0 &k_1& k_2\\ k_1 &k_2 &k_3 \end{array} \right] \left[ \begin{array}{c} w_0\\ w_1\\ w_2 \end{array} \right]= \left[ \begin{array}{c} k_0w_0+k_1w_1+k_2w_2\\ k_1w_0+k_2w_1+k_3w_2 \end{array} \right]. \tag{1}$
这就是卷积 $F (2, 3)$ 的矩阵表示形式，左边的矩阵大小为 $2\times3$ ，右边的列向量为 $3\times1$ 。实际上，对于一维卷积，均可以表示为类似的形式。即对于卷积 $F (m, r)$ ，均可以表示成大小为 $m\times r$ 的矩阵和大小为 $r\times1$ 的列向量的乘积。
对于上述的 $F (2, 3)$ ，不难发现，需要的乘法数目为 $2\times 3=6$ ，加法数目为4个。Winograd算法通过将某些元素进行合并和复用，可以以增加加法为代价减少乘法数目。Winograd算法将式(1)中的结果改写为下列形式
$\left[ \begin{array}{c} k_0w_0+k_1w_1+k_2w_2\\ k_1w_0+k_2w_1+k_3w_2 \end{array} \right]= \left[ \begin{array}{c} m_0+m_1+m_2\\ m_1-m_2-m_3 \end{array} \right].$
其中， $m_0=(k_0-k_2)w_0$ ， $m_1=(k_1+k_2)(w_0+w_1+w_2)/2$ ， $m_2=(k_2-k_1)(w_0-w_1+w_2)/2$ ， $m_3=(k_1-k_3)w_2$ 。
显然，经过上述变换，乘法数目仅为4次，但是加法数目增加到11次（ $w_0+w_2$ 只需要计算一次）。除以2可以忽略，因为他可以通过简单的移位实现。
对于卷积 $F (m, r)$ 而言，被卷积的向量长度为 $m + r - 1$ ，需要的乘法数目也是 $m + r - 1$ 。
下面我们将对一维卷积 $F (2, 3)$ 的Winograd算法用矩阵的形式表示。记下列3个矩阵：
$\begin{array}{c} A^T= \left[ \begin{array}{cccc} 1 &1 &1 &0\\ 0 &1 &-1 &1 \end{array} \right],\\ G=\left[ \begin{array}{ccc} 1&0&0\\ 1/2&1/2&1/2\\ 1/2&-1/2&1/2\\ 0&0&1 \end{array} \right],\\ B^T=\left[ \begin{array}{cccc} 1&0&-1&0\\ 0&1&1&0\\ 0&-1&1&0\\ 0&1&0&-1 \end{array} \right]. \end{array}$
则 $F (2, 3)$ 的Winograd算法可以表示为
$R=\left[ \begin{array}{c} r_0\\ r_1 \end{array} \right]= A^T\left[(Gw)\odot(B^Tk)\right].\tag{2}$
其中 $\odot$ 是矩阵点乘，即矩阵对应元素相乘。

2.二维卷积 $F(2\times2,3\times3)$

二维卷积的Winograd算法是基于一维Winograd算法的，其难点在于如何通过一维卷积的Winograd公式推导出一个通用的二维卷积Winograd公式。本节部分内容参考了参考文献[2]。
不同于一维卷积是用1维向量卷积核在1维向量上进行卷积，二维卷积是用2维卷积核在2维矩阵上进行卷积。对于二维卷积 $F(m\times n,r\times s)$ ，是用大小为 $s\times r$ 的卷积核在大小为 $m+s-1\times m+r-1$ 的矩阵上进行卷积。例如 $F(2\times2,3\times3)$ 就是用大小为 $3\times3$ 的卷积核
$w=\left[ \begin{array}{ccc} w_{0,0}&w_{0,1}&w_{0,2}\\ w_{1,0}&w_{1,1}&w_{1,2}\\ w_{2,0}&w_{2,1}&w_{2,2} \end{array} \right]= \left[ \begin{array}{ccc} w_{0}&w_{1}&w_{2}\\ w_{3}&w_{4}&w_{5}\\ w_{6}&w_{7}&w_{8} \end{array} \right],$
在大小为 $4\times 4$ 的矩阵（因为2+3-1=4）
$k=\left[ \begin{array}{cccc} k_{0,0}&k_{0,1}&k_{0,2}&k_{0,3}\\ k_{1,0}&k_{1,1}&k_{1,2}&k_{1,3}\\ k_{2,0}&k_{2,1}&k_{2,2}&k_{2,3}\\ k_{3,0}&k_{3,1}&k_{3,2}&k_{3,3} \end{array} \right]=\left[ \begin{array}{cccc} k_{0}&k_{1}&k_{2}&k_{3}\\ k_{4}&k_{5}&k_{6}&k_{7}\\ k_{8}&k_{9}&k_{10}&k_{11}\\ k_{12}&k_{13}&k_{14}&k_{15} \end{array} \right]$
上进行卷积。下图（来自参考文献[2]）形象地表述了该卷积操作。
在这里插入图片描述
进一步，将矩阵进行分块。（图片来自于参考文献[2]）
为了更加形象化，将上图中的式子重新记为
$\left[ \begin{array}{ccc} K_0&K_4&K_8\\ K_4&K_8&K_{12} \end{array} \right] \left[ \begin{array}{c} W_0\\ W_3\\ W_6 \end{array} \right]= \left[ \begin{array}{c} R_0\\ R_2 \end{array} \right].$
其中 $K$ 、 $W$ 和 $R$ 的下标用其包含的第一个 $k$ 、 $w$ 或者 $r$ 的下标来表示。进一步，有
$\left[ \begin{array}{c} r_0\\ r_1\\ r_2\\ r_3 \end{array} \right]= \left[ \begin{array}{c} R_0\\ R_2 \end{array} \right]= \left[ \begin{array}{c} K_0W_0+K_4W_3+K_8W_6\\ K_4W_0+K_8W_3+K_{12}W_6 \end{array} \right].$
为得到 $\left[\begin{array}{cc}r_0&r_1\\r_2&r_3\end{array}\right]$ ，进一步改写为
$\left[\begin{array}{cc}r_0&r_1\\r_2&r_3\end{array}\right]= \left[ \begin{array}{c} R^T_0\\ R^T_2 \end{array} \right]= \left[ \begin{array}{c} (K_0W_0+K_4W_3+K_8W_6)^T\\ (K_4W_0+K_8W_3+K_{12}W_6)^T \end{array} \right]= \left[ \begin{array}{c} (K_0W_0)^T+(K_4W_3)^T+(K_8W_6)^T\\ (K_4W_0)^T+(K_8W_3)^T+(K_{12}W_6)^T \end{array} \right].$
对于 $K_iW_j$ 而言，进行的是1维卷积 $F (2, 3)$ 。例如 $K_8W_3$ 表示的是
$K_8W_3= \left[ \begin{array}{ccc} k_8&k_9&k_{10}\\ k_9&k_{10}&k_{11} \end{array} \right] \left[ \begin{array}{c} w_3\\ w_4\\ w_5 \end{array} \right].$
那么根据1维卷积的式(2)，可以表示为
$K_8W_3=A^T \left[ (G \left[ \begin{array}{c} w_3\\w_4\\w_5 \end{array} \right]) \odot (B^T \left[ \begin{array}{c} k_8\\k_9\\k_{10}\\k_{11} \end{array} \right] ) \right].$
转置后有
$(K_8W_3)^T= \left[ ( \left[ w_3,w_4,w_5 \right]G^T) \odot ( \left[ k_8,k_9,k_{10},k_{11} \right]B ) \right]A.$
注意到 $\left[w_3,w_4,w_5\right]G^T$ 是一个 $1\times4$ 的行向量， $\left[k_8,k_9,k_{10},k_{11}\right]B$ 也是是一个 $1\times4$ 的行向量。为了符号简单，我们记 $\mu_3=\left[w_3,w_4,w_5\right]G^T$ ， $v_8=\left[k_8,k_9,k_{10},k_{11}\right]B$ 。因此有
$\left[\begin{array}{cc}r_0&r_1\\r_2&r_3\end{array}\right]= \left[ \begin{array}{c} (\mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8)A\\ (\mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12})A \end{array} \right]= \left[ \begin{array}{c} \mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8\\ \mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12} \end{array} \right]A$
上式中 $\left[ \begin{array}{c} \mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8\\ \mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12} \end{array} \right]$ 是一个大小为 $2\times4$ 的矩阵。

经过观察发现， $\left[ \begin{array}{c} \mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8\\ \mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12} \end{array} \right]$ 与1维卷积式(1)有些相似，他好像可以看做一次卷积核为 $\mu=\left[\mu_0,\mu_3,\mu_6\right]^T$ ，被卷积向量为 $v=\left[v_0,v_4,v_8,v_{12}\right]^T$ 的1维卷积。但可惜的是这里是点乘 $\odot$ ，并且 $\mu_i$ 和 $v_j$ 的顺序好像反了。首先我们解决顺序的问题，因为改变点乘元素的顺序不影响结果，所以有
$\left[ \begin{array}{c} \mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8\\ \mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12} \end{array} \right]= \left[ \begin{array}{c} v_0\odot \mu_0+v_4\odot \mu_3+v_8\odot \mu_6\\ v_4\odot \mu_0+ v_8\odot \mu_3+v_{12}\odot \mu_6 \end{array} \right].$
再次强调一下矩阵的大小， $\left[ \begin{array}{c} v_0\odot \mu_0+v_4\odot \mu_3+v_8\odot \mu_6\\ v_4\odot \mu_0+ v_8\odot \mu_3+v_{12}\odot \mu_6 \end{array} \right]$ 是一个 $2\times 4$ 的矩阵， $v_i\odot \mu_j$ 是一个大小为 $1\times 4$ 的行向量， $v_i$ 和 $\mu_j$ 均是大小为 $1\times 4$ 的行向量。

目前，点乘元素顺序的问题解决了，接下来将点乘替换成元素相乘，以运用我们1维Winograd卷积公式。记
$v_i=\left[v_{i,0}, v_{i,1}, v_{i,2}, v_{i,3}\right],i=0,4,8,12;\\ \mu_j=\left[\mu_{j,0}, \mu_{j,1}, \mu_{j,2}, \mu_{j,3}\right],j=0,3,6.$
于是 $\left[ \begin{array}{c} v_0\odot \mu_0+v_4\odot \mu_3+v_8\odot \mu_6\\ v_4\odot \mu_0+ v_8\odot \mu_3+v_{12}\odot \mu_6 \end{array} \right]$ 可以表示成
$\left[ \begin{array}{cccc} v_{0,0}\mu_{0,0}+v_{4,0}\mu_{3,0}+v_{8,0}\mu_{6,0} &v_{0,1}\mu_{0,1}+v_{4,1}\mu_{3,1}+v_{8,1}\mu_{6,1} &v_{0,2}\mu_{0,2}+v_{4,2}\mu_{3,2}+v_{8,2}\mu_{6,2} &v_{0,3}\mu_{0,3}+v_{4,3}\mu_{3,3}+v_{8,3}\mu_{6,3} \\ v_{4,0}\mu_{0,0}+ v_{8,0}\mu_{3,0}+v_{12,0}\mu_{6,0}&v_{4,1}\mu_{0,1}+ v_{8,1}\mu_{3,1}+v_{12,1}\mu_{6,1}&v_{4,2}\mu_{0,2}+ v_{8,2}\mu_{3,2}+v_{12,2}\mu_{6,2}&v_{4,3}\mu_{0,3}+ v_{8,3}\mu_{3,3}+v_{12,3}\mu_{6,3} \end{array} \right].$
至此，上述矩阵的每一列均可以看做(1)的形式，于是对每一列均采用1维Winograd算法，可以得到
$\left[ \begin{array}{c} v_0\odot \mu_0+v_4\odot \mu_3+v_8\odot \mu_6\\ v_4\odot \mu_0+ v_8\odot \mu_3+v_{12}\odot \mu_6 \end{array} \right]\\ =A^T\left[ (G\left[\begin{array}{c}\mu_{0,0}\\ \mu_{3,0}\\ \mu_{6,0}\end{array}\right])\odot(B^T\left[\begin{array}{c}v_{0,0}\\ v_{4,0}\\ v_{8,0}\\ v_{12,0}\end{array}\right]), (G\left[\begin{array}{c}\mu_{0,1}\\ \mu_{3,1}\\ \mu_{6,1}\end{array}\right])\odot(B^T\left[\begin{array}{c}v_{0,1}\\ v_{4,1}\\ v_{8,1}\\ v_{12,1}\end{array}\right]), (G\left[\begin{array}{c}\mu_{0,2}\\ \mu_{3,2}\\ \mu_{6,2}\end{array}\right])\odot(B^T\left[\begin{array}{c}v_{0,2}\\ v_{4,2}\\ v_{8,2}\\ v_{12,2}\end{array}\right]), (G\left[\begin{array}{c}\mu_{0,3}\\ \mu_{3,3}\\ \mu_{6,3}\end{array}\right])\odot(B^T\left[\begin{array}{c}v_{0,3}\\ v_{4,3}\\ v_{8,3}\\ v_{12,3}\end{array}\right]) \right]\\ =A^T\left[ (G\left[\begin{array}{c}\mu_{0,0}\\ \mu_{3,0}\\ \mu_{6,0}\end{array}\right],G\left[\begin{array}{c}\mu_{0,1}\\ \mu_{3,1}\\ \mu_{6,1}\end{array}\right],G\left[\begin{array}{c}\mu_{0,2}\\ \mu_{3,2}\\ \mu_{6,2}\end{array}\right],G\left[\begin{array}{c}\mu_{0,3}\\ \mu_{3,3}\\ \mu_{6,3}\end{array}\right])\odot(B^T\left[\begin{array}{c}v_{0,0}\\ v_{4,0}\\ v_{8,0}\\ v_{12,0}\end{array}\right],B^T\left[\begin{array}{c}v_{0,1}\\ v_{4,1}\\ v_{8,1}\\ v_{12,1}\end{array}\right],B^T\left[\begin{array}{c}v_{0,2}\\ v_{4,2}\\ v_{8,2}\\ v_{12,2}\end{array}\right],B^T\left[\begin{array}{c}v_{0,3}\\ v_{4,3}\\ v_{8,3}\\ v_{12,3}\end{array}\right]) \right]\\ =A^T\left[ (G\left[ \begin{array}{cccc} \mu_{0,0}&\mu_{0,1}&\mu_{0,2}&\mu_{0,3}\\ \mu_{3,0}&\mu_{3,1}&\mu_{3,2}&\mu_{3,3}\\ \mu_{6,0}&\mu_{6,1}&\mu_{6,2}&\mu_{6,3} \end{array} \right])\odot(B^T\left[ \begin{array}{cccc} v_{0,0}&v_{0,1}&v_{0,2}&v_{0,3}\\ v_{4,0}&v_{4,1}&v_{4,2}&v_{4,3}\\ v_{8,0}&v_{8,1}&v_{8,2}&v_{8,3}\\ v_{12,0}&v_{12,1}&v_{12,2}&v_{12,3} \end{array} \right]) \right].\tag{3}$
为了更好观察上式，这里将 $\mu$ 和 $v$ 所表示的矩阵重写一遍。
$\left[ \begin{array}{c} \mu_0\\ \mu_3\\ \mu_6 \end{array} \right]= \left[ \begin{array}{cccc} \mu_{0,0}&\mu_{0,1}&\mu_{0,2}&\mu_{0,3}\\ \mu_{3,0}&\mu_{3,1}&\mu_{3,2}&\mu_{3,3}\\ \mu_{6,0}&\mu_{6,1}&\mu_{6,2}&\mu_{6,3} \end{array} \right]= \left[ \begin{array}{ccc} w_0&w_1&w_2\\ w_3&w_4&w_5\\ w_6&w_7&w_8 \end{array} \right]G^T=wG^T;\\ \left[ \begin{array}{c} v_0\\ v_4\\ v_8\\ v_{12} \end{array} \right]= \left[ \begin{array}{cccc} v_{0,0}&v_{0,1}&v_{0,2}&v_{0,3}\\ v_{4,0}&v_{4,1}&v_{4,2}&v_{4,3}\\ v_{8,0}&v_{8,1}&v_{8,2}&v_{8,3}\\ v_{12,0}&v_{12,1}&v_{12,2}&v_{12,3} \end{array} \right]= \left[ \begin{array}{cccc} k_0&k_1&k_2&k_3\\ k_4&k_5&k_6&k_7\\ k_8&k_9&k_{10}&k_{11}\\ k_{12}&k_{13}&k_{14}&k_{15} \end{array} \right]B=kB.$
同时考虑(3)，有
$\begin{aligned} \left[\begin{array}{cc}r_0&r_1\\r_2&r_3\end{array}\right] &=\left[ \begin{array}{c} \mu_0\odot v_0+\mu_3\odot v_4+\mu_6\odot v_8\\ \mu_0\odot v_4+\mu_3\odot v_8+\mu_6\odot v_{12} \end{array} \right]A\\ &=A^T\left[ (G\left[ \begin{array}{cccc} \mu_{0,0}&\mu_{0,1}&\mu_{0,2}&\mu_{0,3}\\ \mu_{3,0}&\mu_{3,1}&\mu_{3,2}&\mu_{3,3}\\ \mu_{6,0}&\mu_{6,1}&\mu_{6,2}&\mu_{6,3} \end{array} \right])\odot(B^T\left[ \begin{array}{cccc} v_{0,0}&v_{0,1}&v_{0,2}&v_{0,3}\\ v_{4,0}&v_{4,1}&v_{4,2}&v_{4,3}\\ v_{8,0}&v_{8,1}&v_{8,2}&v_{8,3}\\ v_{12,0}&v_{12,1}&v_{12,2}&v_{12,3} \end{array} \right]) \right]A\\ &=A^T\left[ (GwG^T)\odot(B^TkB) \right]A. \end{aligned}$
上式是2维卷积的Winograd算法。注意到 $GwG^T)$ 和 $B^TkB)$ 均是 $4\times4$ 的矩阵，因此他们的点乘需要16次乘法，而常规的卷积运算需要 $3\times3\times2\times2=36$ 次乘法。

3. 1维卷积 $F (m, r)$ 和2维卷积 $F(m\times n,r\times s)$ 在Winograd算法下需要的乘法数目总结

根据[1]中给出的结论，对于1维卷积 $F (m, r)$ 的Winograd算法，其需要的乘法个数为 $m + r - 1$ 。对于2维卷积 $F(m\times n,r\times s)$ 的Winograd算法，其需要的乘法个数为 $(m+r-1)\times(n+s-1)$ 。当 $n = m$ 以及 $s = r$ 时，卷积 $F(m\times m,r\times r)$ 的Winograd算法需要的乘法个数为 $(m+r-1)\times(m+r-1)$ 。

4. 将2维卷积 $F(m\times m,r\times r)$ 的Winograd算法运用到神经网络的卷积

参考文献[1]中的Algorithm 1直接给出了将2维卷积 $F(m\times m,r\times r)$ 的Winograd算法运用到神经网络的卷积的方法。
在这里插入图片描述
假设每张图片有 $C$ 个信道，mini-batch大小为 $N$ （一次处理N张图片）。假设有 $K$ 个filter，每个filter有 $C$ 个卷积核。

如上图所示，每个filter有C个信道，每张图片也有C个信道，于是这C个信道对应的卷积核和像素矩阵一一对应卷积，即对于某个filter来说，当他操作于某张图片时，该filter的信道i对应的卷积核卷积该图片的信道i对应的像素矩阵（如图中蓝色箭头表示），C个信道做完卷积后，将结果相加。因此，一个filter作用于一张图片得到一个结果矩阵。图中我们有K个filter，作用于一个mini-batch的N个图片，得到 $K\times N$ 个结果矩阵。

要使用二维卷积 $F(m\times m,r\times r)$ ，则需要将每张图片的每个像素矩阵分割成多个相互重叠的子矩阵。这个子矩阵的大小为 $(m+r-1)\times(m+r-1)$ ，相邻子矩阵之间重叠长度为 $r - 1$ 。这样的分割可以使一个卷积核在一张像素图上的卷积变为该卷积核分别在多个大小为 $(m+r-1)\times(m+r-1)$ 的子矩阵上的卷积。这个大小为 $(m+r-1)\times(m+r-1)$ 的子矩阵在[1]中被称为1个tile。
在这里插入图片描述
上图给出了一个 $3\times 3$ 的卷积核在一个 $6\times 6$ 的像素矩阵上利用Winograd算法进行卷积的图示。
根据上面的图示分析可知，对于每一个信道，我们需要将每个像素矩阵分为若干个大小为 $(m+r-1)\times(m+r-1)$ 的子矩阵（tile），对于一个mini-batch中的N个像素矩阵进行这样分割，可以得到 $P$ 个大小为 $(m+r-1)\times(m+r-1)$ 的子矩阵（tile），这也是Algorithm 1中的 $P$ 。至此，对于 $(i,j)\in \{0,1,2,\dots,K-1\}\times \{0,1,\dots,P-1\}$ ，要完成一个filter（ $C$ 个卷积核）与其对应的 $C$ 个通道的大小为 $(m+r-1)\times(m+r-1)$ 的子矩阵（tile）卷积运算，这样的运算需要 $K\times P$ 次。这也是为什么Algorithm 1的最后一个循环是基于K和P的。

再来看看上述一个操作里面多个通道相加对于二维卷积Winograd公式的影响。记通道索引为 $i$ ，也即卷积核的索引为 $i$ ，于是有 $i=0,1,\dots,C-1$ 。对应的卷积核矩阵记为 $w_i$ ，该通道对应的像素子矩阵(tile)记为 $k_i$ 。根据之前得到的Winograd公式，卷积的结果矩阵可以表示为
$A^T\left[ (Gw_iG^T)\odot(B^Tk_iB) \right]A.$
最终的卷积结果需要将 $C$ 个通道的卷积结果相加，即
$\sum_{i=0,1,\dots,C-1}A^T\left[ (Gw_iG^T)\odot(B^Tk_iB) \right]A= A^T\left[\sum_{i=0,1,\dots,C-1} (Gw_iG^T)\odot(B^Tk_iB) \right]A.$
但是上式没有表现出不同filter和不同子矩阵（tile）的索引，为了进一步简化符号，并表明filter和子矩阵（tile）的索引，记 $w^{(k,c)}$ 为filter $k$ 的第 $c$ 个通道的卷积核，并记 $U_{k,c}=Gw^{(k,c)}G^T$ ，其中 $k=0,1,\dots,K-1$ ， $c=0,1,\dots,C-1$ 。这里为了和矩阵元素下标相区别，将索引 $k, c$ 放在 $w$ 的商标。同理，记 $k^{(b,c)}$ 为第 $b$ 个子矩阵组的第 $c$ 个通道的子矩阵（tile），并记 $V_{b,c}=B^Tk^{(b,c)}B$ ，其中 $b=0,1,\dots,P-1$ ， $c=0,1,\dots,C-1$ 。于是对于某个 $k$ 和 $b$ ，我们需要先求得
$\sum_{i=0,1,\dots,C-1} U_{k,i}\odot V_{b,i},$
然后计算
$A^T\left[\sum_{i=0,1,\dots,C-1} U_{k,i}\odot V_{b,i}\right]A.$

至此，再来看看Algorithm 1中的几个循环。第一个基于K和C的循环即是在求 $K\times C$ 个卷积核对应的 $U_{k,i}$ ， $k=0,1,\dots,K-1$ ， $i=0,1,\dots,C-1$ 。第二个基于P和C的循环其实是在求 $P\times C$ 个像素子矩阵(tile)对应的 $V_{b,c}$ ， $b=0,1,\dots,P-1$ ， $i=0,1,\dots,C-1$ 。第三个循环实现 $U_{k,i}$ 和 $V_{b,c}$ 的点乘与求和，即 $\sum_{i=0,1,\dots,C-1}U_{k,i}\odot V_{b,i}$ 。最后一个循环实现左右分别乘 $A^T$ 和 $A$ 。