二维高斯模糊和可分离核形式的快速实现

最新推荐文章于 2025-04-03 00:39:00 发布

原创最新推荐文章于 2025-04-03 00:39:00 发布 · 1.2w 阅读

63 ·

CC 4.0 BY-SA版权

图像处理专栏收录该内容

2 篇文章

订阅专栏

本文介绍了二维高斯模糊的基本概念，包括高斯核和滤波表达式。通过分析高斯核的可分离性，提出了一种优化方法，降低计算复杂度从O(wKhK)到O(wK+hK)。此外，还讨论了如何利用内存访问局部性原则加速滤波过程，改善程序效率。

高斯模糊原理

基本概念

二维高斯模糊，或者说高斯滤波，是图像处理中非常常见的操作。操作的核心是使用一个从高斯分布中采样得到的掩膜，或者叫核，和输入图片中的每个像素及其邻域进行计算，结果保存到输出图片中。假设高斯核窗口尺寸为 $(2w + 1) \times (2w + 1)$ ，高斯分布的标准差为 $\sigma$ ，则高斯核可以表示为矩阵的形式

G = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ G (- w, - w) ⋮ G (0, - w) ⋮ G (w, - w) \dots \dots \dots G (- w, 0) ⋮ G (0, 0) ⋮ G (w, 0) \dots \dots \dots G (- w, w) ⋮ G (0, w) ⋮ G (w, w) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf G = \begin{bmatrix} G(-w, -w) &\dots &G(-w, 0) &\dots &G(-w, w)\\ \vdots &{} &\vdots &{} &\vdots\\ G(0, -w) &\dots &G(0, 0) &\dots &G(0, w)\\ \vdots &{} &\vdots &{} &\vdots\\ G(w, -w) &\dots &G(w, 0) &\dots &G(w, w) \end{bmatrix}$
其中

G (u, v) = 1 S exp (- u 2 2 σ 2 - v 2 2 σ 2)

$G(u,v) = \dfrac{1}{S} \exp\left(-\dfrac{u^2}{2\sigma^2}-\dfrac{v^2}{2\sigma^2}\right)$ 其中

u $u$ 表示行，

v $v$ 表示列，

u,v∈{−w,−w+1,…,w−1,w} $u, v \in \{-w, -w + 1, \dots, w - 1, w\}$ ，

S $S$ 是归一化常数

S = \sum u = - w w \sum v = - w w exp (- u 2 2 σ 2 - v 2 2 σ 2)

$S = \sum_{u = -w}^{w}\sum_{v = -w}^{w} \exp\left(-\dfrac{u^2}{2\sigma^2}-\dfrac{v^2}{2\sigma^2}\right)$ 由于高斯分布的概率密度函数的非零值区间主要集中在

(−3σ,3σ) $(-3\sigma, 3\sigma)$ 内，所以为了保证选取的高斯核的完整性，一般取

w≈3σ $w \approx 3\sigma$ 。

说完了高斯核，该说高斯模糊的表达式了。设输入图片为 $\mathbf X$ ，输出图片为 $\mathbf Y$ ，第 $i$ 行第 $j$ 列的数据表示为 $X(i, j)$ 和 $Y(i,j)$ ，则使用窗口大小为 $(2w + 1)\times(2w + 1)$ ，标准差为 $\sigma$ 的高斯核计算后的结果为

Y (i, j) = \sum u = - w w \sum v = - w w X (i + u, j + v) G (u, v) (1)

$Y(i,j) = \sum_{u = -w}^{w} \sum_{v = -w}^{w}X(i+u, j+v)G(u, v) \tag{1}\label{labelGaussOrigExpr}$ 根据这个表达式，为了得到位置

(i,j) $(i, j)$ 上的输出，需要将高斯核的中心置于输入图片的位置

(i,j) $(i, j)$ 处，让高斯核的每一个值和输入图片对应位置上的值相乘，进行

(2w+1)×(2w+1) $(2w + 1)\times(2w + 1)$ 次乘法计算，然后再进行

(2w+1)×(2w+1)−1 $(2w + 1)\times(2w + 1) - 1$ 次加法计算，所以时间复杂度是

O(w2) $O(w^2)$ 的。

可分离核形式实现

但是，注意到，高斯核的表达式是可分离的。下面为了表示方便，令

g (x) = exp (- x 2 2 σ 2)

$g(x) = \exp\left(-\dfrac{x^2}{2\sigma^2}\right)$ 则有

G (u, v) = 1 S g (u) g (v)

$G(u, v) = \dfrac{1}{S}g(u)g(v)$ 那么高斯核矩阵又可以改写成归一化常数乘以一个行向量乘以一个列向量的形式，如下

G = 1 S ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ g (- w) g (- w) ⋮ g (0) g (- w) ⋮ g (w) g (- w) \dots \dots \dots g (- w) g (0) ⋮ g (0) g (0) ⋮ g (w) g (0) \dots \dots \dots g (- w) g (w) ⋮ g (0) g (w) ⋮ g (w) g (w) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 S ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ g (- w) ⋮ g (0) ⋮ g (w) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \times [g (- w) \dots g (0) \dots g (w)]

$\begin{align} \mathbf G &= \dfrac{1}{S} \begin{bmatrix} g(-w)g(-w) &\dots &g(-w)g(0) &\dots &g(-w)g(w) \\ \vdots &\ &\vdots &\ &\vdots \\ g(0)g(-w) &\dots &g(0)g(0) &\dots &g(0)g(w)\\ \vdots &\ &\vdots &\ &\vdots \\ g(w)g(-w) &\dots &g(w)g(0) &\dots &g(w)g(w) \end{bmatrix}\\ &=\dfrac{1}{S} \begin{bmatrix} g(-w)\\ \vdots \\ g(0) \\ \vdots \\ g(w) \end{bmatrix} \times \begin{bmatrix} g(-w) \dots g(0) \dots g(w) \end{bmatrix} \end{align}$
另外

S = \sum u = - w w \sum v = - w w g (u) g (v) = \sum u = - w w [\sum v = - w w g (v)] g (u) = [\sum u = - w w g (u)] \times [\sum v = - w w g (v)] = S' \times S'

$\begin{align} S &= \sum_{u = -w}^{w}\sum_{v = -w}^{w}g(u)g(v) =\sum_{u = -w}^{w}\left[\sum_{v = -w}^{w}g(v)\right]g(u) \\ &=\left[\sum_{u = -w}^{w}g(u)\right] \times \left[\sum_{v = -w}^{w}g(v)\right] = S' \times S' \end{align}$
其中

S′ $S'$ 可以认为是一维高斯核的归一化系数的倒数。所以有

G = G 1 \times G 2

$\mathbf G = \mathbf G_1 \times \mathbf G_2$ 其中

G 1 G 2 = 1 S ' [g (- w) \dots g (0) \dots g (w)] T = 1 S ' [g (- w) \dots g (0) \dots g (w)]

$\begin{align} \mathbf G_1 &= \dfrac{1}{S'}\left[g(-w) \dots g(0) \dots g(w)\right]^{\mathrm T}\\ \mathbf G_2 &= \dfrac{1}{S'}\left[g(-w) \dots g(0) \dots g(w)\right] \end{align}$ 由此可见，

G $\mathbf G$ 可以分离成两个向量的乘积的形式。

下面对 $\eqref{labelGaussOrigExpr}$ 式进行改写

Y (i, j) = \sum u = - w w \sum v = - w w X (i + u, j + v) G (u, v) = \sum u = - w w \sum v = - w w X (i + u, j + v) 1 S g (u) g (v) = \sum u = - w w \sum v = - w w X (i + u, j + v) 1 S ' g (u) 1 S ' g (v) = \sum u = - w w [\sum v = - w w X (i + u, j + v) 1 S ' g (v)] 1 S ' g (u) = \sum u = - w w Z (i + u) 1 S ' g (u)

$\begin{align} Y(i,j) &= \sum_{u = -w}^{w} \sum_{v = -w}^{w}X(i+u, j+v)G(u, v) \\ &=\sum_{u = -w}^{w} \sum_{v = -w}^{w}X(i+u, j+v)\dfrac{1}{S} g(u)g(v)\\ &=\sum_{u = -w}^{w} \sum_{v = -w}^{w}X(i+u, j+v)\dfrac{1}{S'}g(u)\dfrac{1}{S'}g(v)\\ &= \sum_{u = -w}^{w}\left[ \sum_{v = -w}^{w}X(i+u, j+v)\dfrac{1}{S'}g(v)\right]\dfrac{1}{S'}g(u)\\ &= \sum_{u = -w}^{w} Z(i + u)\dfrac{1}{S'} g(u) \end{align}$
上面的式子表明，为了获得最终的高斯滤波的结果，可以先用横向一维高斯核

G2 $\mathbf G_2$ 与输入图片

X $\mathbf X$ 进行计算，得到中间结果

Z $\mathbf Z$ 。再用纵向一维高斯核

G1 $\mathbf G_1$ 与中间结果

Z $\mathbf Z$ 进行计算，得到输出

Y $\mathbf Y$ 。利用

X (i + u, j - w), \dots, X (i + u, j), \dots, X (i + u, j + w)

$X(i + u, j - w), \dots, X(i + u, j), \dots, X(i + u, j + w)$ 计算得到

Z(i+u,j) $Z(i + u, j)$ 需要进行

(2w+1) $(2w + 1)$ 次乘法计算和

2w $2w$ 次加法计算。利用

Z (i - w, j), \dots, Z (i, j), \dots, Z (i + w, j)

$Z(i - w, j), \dots, Z(i, j), \dots, Z(i + w, j)$ 计算得到

Y(i,j) $Y(i, j)$ 需要进行

(2w+1) $(2w + 1)$ 次乘法计算和

2w $2w$ 次加法计算。总的来说，计算出

Y(i,j) $Y(i, j)$ 的值需要进行

(4w+2) $(4w + 2)$ 次乘法计算和

4w $4w$ 次加法计算，时间复杂度仅为

O(w) $O(w)$ ，比直接采用

(1) $\eqref{labelGaussOrigExpr}$ 式的计算方法快了很多。但是该算法需要使用和输入图片尺寸一致的内存保存中间结果。

实例分析

基本实现

假设我们有如下 $8 \times 8$ 的数据

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0816243240485619172533414957210182634425058311192735435159412202836445260513212937455361614223038465462715233139475563 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf X = \begin{bmatrix} 0 &1 &2 &3 &4 &5 &6 &7 \\ 8 &9 &10 &11 &12 &13 &14 &15\\ 16 &17 &18 &19 &20 &21 &22 &23\\ 24 &25 &26 &27 &28 &29 &30 &31 \\ 32 &33 &34 &35 &36 &37 &38 &39 \\ 40 &41 &42 &43 &44 &45 &46 &47 \\ 48 &49 &50 &51 &52 &53 &54 &55 \\ 56 &57 &58 &59 &60 &61 &62 &63 \end{bmatrix}$
我们要对这些数据进行窗口大小为

5×5 $5 \times 5$ ，标准差为

σ=1.0 $\sigma = 1.0$ 的高斯模糊。这时我们先计算纵向高斯核

G1 $\mathbf G_1$ 和横向高斯核

G2 $\mathbf G_2$ 的数值，得到

G 1 G 2 = [0.054 0.244 0.403 0.244 0.054] T = [0.054 0.244 0.403 0.244 0.054]

$\begin{align} \mathbf G_1 &=\left[ 0.054 \quad 0.244 \quad 0.403 \quad 0.244 \quad 0.054 \right]^{\mathrm T}\\ \mathbf G_2 &=\left[ 0.054 \quad 0.244 \quad 0.403 \quad 0.244 \quad 0.054 \right] \end{align}$
下面我们用

G2 $\mathbf G_2$ 对

X $\mathbf X$ 的每一行进行模糊计算。以计算第 0 行为例。由于高斯核的长度等于 5，所以计算前要对第 0 行的数据进行扩展，这里采用镜像对称的方式进行扩展，扩展之后的数据为

[2 - 1 - 01234567 6 - 5 -]

$\left[\underline{2} \quad \underline{1} \quad 0 \quad 1 \quad 2 \quad 3 \quad 4 \quad 5 \quad 6 \quad 7 \quad \underline{6} \quad \underline{5} \right]$ 其中加了下划线的数据就是扩展的数据。下图展示了高斯核从左向右移动并计算的过程，向下的箭头下面表示的是计算结果，也就是

Z $\mathbf Z$ 的第 0 行

2 0.054 1 0.244 0.054 0 0.403 0.244 0.054 0.706 1 0.244 0.403 0.244 1.109 2 0.054 0.244 0.403 2.000 3 0.054 0.244 3.000 4 0.054 \dots 0.054 ↓ 4.000 5 0.244 0.054 5.000 6 0.403 0.244 5.891 7 0.244 0.403 6.294 6 0.054 0.244 5 0.054

$\begin{matrix} 2 &1 &0 &1 &2 &3 &4 &5 &6 &7 &6 &5 \\ 0.054 &0.244 &0.403 &0.244 &0.054\\ {} &0.054 &0.244 &0.403 &0.244 &0.054\\ {} &{} &0.054 &0.244 &0.403 &0.244 &0.054\\ {} &{} &{} &{} &{} &{} &{}\dots\\ {} &{} &{} &{} &{} &{} &0.054 &0.244 &0.403 &0.244 &0.054\\ {} &{} &{} &{} &{} &{} &{} &0.054 &0.244 &0.403 &0.244 &0.054\\ {} &{} &{} &{} &{} &{} &{}\downarrow\\ {} &{} &0.706 &1.109 &2.000 &3.000 &4.000 &5.000 &5.891 &6.294 \end{matrix}$
对

X $\mathbf X$ 的每一行都这么处理，就可以得到中间结果

Z = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0.706 8.706 16.706 24.706 32.706 40.706 48.706 56.706 1.109 9.109 17.109 25.109 33.109 41.109 49.109 57.109 2.000 10.000 18.000 26.000 34.000 42.000 50.000 58.000 3.000 11.000 19.000 27.000 35.000 43.000 51.000 59.000 4.000 12.000 20.000 28.000 36.000 44.000 52.000 60.000 5.000 13.000 21.000 29.000 37.000 45.000 53.000 61.000 5.891 13.891 21.891 29.891 37.891 45.891 53.891 61.891 6.294 14.294 22.294 30.294 38.294 46.294 54.294 62.294 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf Z = \begin{bmatrix} 0.706 &1.109 &2.000 &3.000 &4.000 &5.000 &5.891 &6.294\\ 8.706 &9.109 &10.000 &11.000 &12.000 &13.000 &13.891 &14.294\\ 16.706 &17.109 &18.000 &19.000 &20.000 &21.000 &21.891 &22.294\\ 24.706 &25.109 &26.000 &27.000 &28.000 &29.000 &29.891 &30.294\\ 32.706 &33.109 &34.000 &35.000 &36.000 &37.000 &37.891 &38.294\\ 40.706 &41.109 &42.000 &43.000 &44.000 &45.000 &45.891 &46.294\\ 48.706 &49.109 &50.000 &51.000 &52.000 &53.000 &53.891 &54.294\\ 56.706 &57.109 &58.000 &59.000 &60.000 &61.000 &61.891 &62.294 \end{bmatrix}$
下面我们用

G1 $\mathbf G_1$ 对

Z $\mathbf Z$ 的每一列进行模糊计算。以计算第 0 列为例。第 0 列采用镜像对称的方式进行扩展，扩展之后的数据为

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 16.706 - - - - - 8.706 - - - - - 0.706 8.706 16.706 24.706 32.706 40.706 48.706 56.706 48.706 - - - - - 40.706 - - - - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{bmatrix} \underline{16.706}\\ \underline{8.706}\\ 0.706\\ 8.706\\ 16.706\\ 24.706\\ 32.706\\ 40.706\\ 48.706\\ 56.706\\ \underline{48.706}\\ \underline{40.706} \end{bmatrix}$ 其中加了下划线的数据就是扩展的数据。下图展示了高斯核从上向下移动并计算的过程，第一个向右的箭头右边表示的是浮点数计算结果，第二个向右箭头的右边表示四舍五入后成为整数的计算结果

16.706 8.706 0.706 8.706 16.706 24.706 32.706 40.706 48.706 56.706 48.706 40.706 0.054 0.244 0.403 0.244 0.054 0.054 0.244 0.403 0.244 0.054 0.054 0.244 0.403 0.244 0.054 \dots 0.054 0.244 0.403 0.244 0.054 0.054 0.244 0.403 0.244 0.054 \to 6.357 9.578 16.706 24.706 32.706 40.706 47.835 51.056 \to 610172533414851

$\begin{matrix} 16.706 &0.054 &{} &{} &{} &{} &{} &{} &{} &{} &{}\\ 8.706 &0.244 &0.054 &{} &{} &{} &{} &{} &{} &{} &{}\\ 0.706 &0.403 &0.244 &0.054 &{} &{} &{} &{} &6.357 &{} &6\\ 8.706 &0.244 &0.403 &0.244 &{} &{} &{} &{} &9.578 &{} &10\\ 16.706 &0.054 &0.244 &0.403 &{} &{} &{} &{} &16.706 &{} &17\\ 24.706 &{} &0.054 &0.244 &{} &{} &{} &{} &24.706 &{} &25\\ 32.706 &{} &{} &0.054 &\dots &0.054 &{} &\rightarrow &32.706 &\rightarrow &33\\ 40.706 &{} &{} &{} &{} &0.244 &0.054 &{} &40.706 &{} &41\\ 48.706 &{} &{} &{} &{} &0.403 &0.244 &{} &47.835 &{} &48\\ 56.706 &{} &{} &{} &{} &0.244 &0.403 &{} &51.056 &{} &51\\ 48.706 &{} &{} &{} &{} &0.054 &0.244 &{} &{} &{} &{}\\ 40.706 &{} &{} &{} &{} &{} &0.054 &{} &{} &{} &{} \end{matrix}$
对

Z $\mathbf Z$ 的每一列都这么处理，就可以得到模糊结果

Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 6101725334148517101725334148518111826344249529121927354350531013202836445154111421293745525512152230384653561215223038465357 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\mathbf Y = \begin{bmatrix} 6 &7 &8 &9 &10 &11 &12 &12\\ 10 &10 &11 &12 &13 &14 &15 &15\\ 17 &17 &18 &19 &20 &21 &22 &22\\ 25 &25 &26 &27 &28 &29 &30 &30\\ 33 &33 &34 &35 &36 &37 &38 &38\\ 41 &41 &42 &43 &44 &45 &46 &46\\ 48 &48 &49 &50 &51 &52 &53 &53\\ 51 &51 &52 &53 &54 &55 &56 &57 \end{bmatrix}$

符合局部性原则的内存访问加速

下面来考虑上述方法在内存访问效率方面的问题。利用 $\mathbf G_2$ 和 $\mathbf X$ 计算 $\mathbf Z$ 的过程中，内存访问都是连续的，都是从左到右的形式。但是在利用 $\mathbf G_1$ 和 $\mathbf Z$ 计算 $\mathbf Y$ 的过程中，取出每一列中的相邻数据，需要跨行。如果需要处理的图片宽度比较大，跨行访问数据可能会导致 Cache Miss，这是违反了内存访问局部性原则的。为了解决这一问题，利用 $\mathbf G_1$ 和 $\mathbf Z$ 计算 $\mathbf Y$ 的方法需要调整。

实际上，利用 $\mathbf G_1$ 和 $\mathbf Z$ 计算 $\mathbf Y$ 同样可以按行的方式计算。为了表述方便，以计算 $\mathbf Y$ 的第 2 行（下标从 0 开始） $\mathbf Y(2, \cdot)$ 为例，

Y (2, \cdot) = G 1 (0) Z (0, \cdot) + G 1 (1) Z (1, \cdot) + G 1 (2) Z (2, \cdot) + G 1 (3) Z (3, \cdot) + G 1 (4) Z (4, \cdot)

$\mathbf Y(2, \cdot) = G_1(0)\mathbf Z(0, \cdot) + G_1(1)\mathbf Z(1, \cdot) + G_1(2) \mathbf Z(2, \cdot) + G_1(3)\mathbf Z(3, \cdot) + G_1(4)\mathbf Z(4, \cdot)$ 其中

G1(i) $G_1(i)$ 表示

G1 $\mathbf G_1$ 的第

i $i$ 个元素，

Z(i,⋅) $\mathbf Z(i, \cdot)$ 表示

Z $\mathbf Z$ 的第

i $i$ 行。

在代码实现的时候，为了计算 $\mathbf Y(2, \cdot)$ ，初始化一个长度为 8 的浮点数行向量 $\mathbf T$ ，令里面的值全等于零，然后用遍历行元素的方式进行如下计算

T T T T T = T + G 1 (0) Z (0, \cdot) = T + G 1 (1) Z (1, \cdot) = T + G 1 (2) Z (2, \cdot) = T + G 1 (3) Z (3, \cdot) = T + G 1 (4) Z (4, \cdot)

$\begin{align} \mathbf T &= \mathbf T + G_1(0)\mathbf Z(0, \cdot)\\ \mathbf T &= \mathbf T + G_1(1)\mathbf Z(1, \cdot)\\ \mathbf T &= \mathbf T + G_1(2)\mathbf Z(2, \cdot)\\ \mathbf T &= \mathbf T + G_1(3)\mathbf Z(3, \cdot)\\ \mathbf T &= \mathbf T + G_1(4)\mathbf Z(4, \cdot) \end{align}$
最后将

T $\mathbf T$ 中的浮点数的值四舍五入赋值给

Y(2,⋅) $\mathbf Y(2, \cdot)$ 。这样就避免了内存访问跨行的问题。注意，为了满足内存访问的局部性，增加了内存使用量，多用了

T $\mathbf T$ 。

对于边界行，按照镜像对称的方式选取相应行进行计算。比如，为了计算 $\mathbf Y(0, \cdot)$ ，初始化一个长度为 8 的浮点数行向量 $\mathbf T$ ，令里面的值全等于零，然后用遍历行元素的方式进行如下计算

T T T T T = T + G 1 (0) Z (2, \cdot) = T + G 1 (1) Z (1, \cdot) = T + G 1 (2) Z (0, \cdot) = T + G 1 (3) Z (1, \cdot) = T + G 1 (4) Z (2, \cdot)

$\begin{align} \mathbf T &= \mathbf T + G_1(0)\mathbf Z(2, \cdot)\\ \mathbf T &= \mathbf T + G_1(1)\mathbf Z(1, \cdot)\\ \mathbf T &= \mathbf T + G_1(2)\mathbf Z(0, \cdot)\\ \mathbf T &= \mathbf T + G_1(3)\mathbf Z(1, \cdot)\\ \mathbf T &= \mathbf T + G_1(4)\mathbf Z(2, \cdot) \end{align}$
最后将

T $\mathbf T$ 中的浮点数的值四舍五入赋值给

Y(0,⋅) $\mathbf Y(0, \cdot)$ 。

扩展与总结

本文中所讲述的高斯模糊的计算方法，可以扩展到任意尺寸可分离核的滤波的实现。

设输入数据为 $\mathbf X$ ， $h_X$ 行 $w_X$ 列，滤波核为 $\mathbf K$ ， $(2h_K + 1)$ 行 $(2w_K + 1)$ 列，使用 $\mathbf K$ 对 $\mathbf X$ 进行二维滤波的结果是 $\mathbf Y$ 。而直接采用二维循环的原始计算方法，需要进行 $(2h_K + 1) \times (2w_K + 1)$ 次乘法计算和 $(2h_K + 1) \times (2w_K + 1) - 1$ 次加法计算。计算的时间复杂度是 $O(w_K h_K)$ 的。

如果 $\mathbf K$ 是可分离核，可以写成列向量 $\mathbf K_{\rm vertical}$ 和行向量 $\mathbf K_{\rm vertical}$ 相乘的形式，即 $\mathbf K = \mathbf K_{\rm vertical} \times \mathbf K_{\rm horizontal}$ 。那么在计算滤波结果 $\mathbf Y$ 的时候，可以先用 $\mathbf K_{\rm horizontal}$ 对 $\mathbf X$ 进行行滤波计算，将计算结果保存到 $\mathbf Z$ 中，计算 $\mathbf Z$ 中的每一个数值需要 $(2w_K + 1)$ 次乘法计算和 $2w_K$ 次加法计算。再使用 $\mathbf K_{\rm vertical}$ 对 $\mathbf Z$ 进行列滤波计算，得到最终结果 $\mathbf Y$ 。在 $\mathbf Z$ 的基础上计算 $\mathbf Y$ 中的每一个数值需要 $(2h_K + 1)$ 次乘法计算和 $2h_K$ 次加法计算。总的来说，根据 $\mathbf X$ 计算 $\mathbf Y$ 中的一个数值，需要进行 $(2h_K + 2w_K + 2)$ 次乘法计算和 $2h_K + 2w_K$ 次加法计算。计算的时间复杂度从 $O(w_K h_K)$ 降至 $O(w_K + h_K)$ 。

列滤波的过程还可以考虑内存访问的局部性原则，以提高程序的运行效率。

可分离核的实现方法和列滤波的内存访问加速的实现方法，都需要消耗额外的内存，用空间复杂度的提高换取时间复杂度和效率的改进。

8 条评论

The Starry Sky 2019.09.03
后面内存访问加速部分，能不能对Z转置，然后和处理行一样，会不会快些？？
- HappyHeavyRain回复qq_42397448 2021.05.06
  转置的过程也同样涉及cache miss呀
- qq_42397448回复The Starry Sky 2020.09.20
  [reply]qq_43974613[/reply]我也想问

Chen_Tianyang 2019.01.13
这篇文章写得很好，请问博主注明来源的话可以转载吗？

Chen_Tianyang 2019.01.13
您好，请问为什么要采用镜像对称的方式进行扩展？与外围补白边的方式相比有什么差异？

KatherinePavlovna 2018.12.13
这篇文章真的是太棒了~！

saw009 2018.05.15
讲的非常好，受益

北络 2015.08.14
文章技术含量很高

taotao1233 2015.05.28
你知道CUDA并行计算嘛？
- zxpddfg回复taotao1233 2015.05.29
  [reply]jinshengtao[/reply]不知道你的意思是不是做了这一项证明，才能说明可分离核形式的正确性？对于二维滤波器的理解可以更宽泛一些，参考维基百科上一个不太规范的词条 http://en.wikipedia.org/wiki/Separable_filter，类似于 Sobel 算子也可以用可分离核的形式实现。从滤波器的角度说，一个二维滤波器能够写成一个列向量和一个行向量的乘积，就能在运算时采用快速算法，这种说法应该更通用一些。你这么一问，我倒是又想到了一些东西。一个二维滤波器，如果所有元素的和等于1，那么可以认为是一个二维离散随机变量的联合概率密度函数。更进一步，如果这个二维滤波器能够写成可分离核的形式，就相当于这个二维随机变量的两个维度是相互独立的，联合概率密度函数可以写成两个方向边缘概率密度函数乘积的形式。
- taotao1233回复zxpddfg 2015.05.28
  [reply]zxpddfg[/reply] 对于二维高斯核，是个联合分布，你的推导需要证明x与y方向变量是独立的、不相关的。这样才严谨吧
- zxpddfg回复taotao1233 2015.05.28
  [reply]jinshengtao[/reply]有点概念，但是没详细了解过细节