论文笔记：Non-Local Neural Network

最新推荐文章于 2024-05-08 21:41:08 发布

原创最新推荐文章于 2024-05-08 21:41:08 发布 · 265 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

CV 同时被 3 个专栏收录

6 篇文章

订阅专栏

论文笔记

1 篇文章

订阅专栏

视频表达

1 篇文章

订阅专栏

该博客详细解析了Non-Local Neural Network论文，探讨了如何在深度学习中引入非局部操作，通过高斯函数、内积和拼接等方法建立不同位置之间的关系。非局部块的使用可以与卷积和循环层结合，并且通过残差连接适应预训练模型。作者还介绍了2D ConvNet和Inflated 3D ConvNet两种基线的实验设置。

论文笔记：Non-Local Neural Network

Abstract

卷积和循环操作都一次只在一个局部neighborhood上操作。

受到传统计算机视觉中非局部中值计算的启发，作者决定使用此方法在深度学习上。

公式

通用公式：
$\mathbf{y}_{i}=\frac{1}{\mathcal{C}(\mathbf{x})} \sum_{\forall j} f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right) g\left(\mathbf{x}_{j}\right)$
$y\mathbf{y}$ is output. $x$ 是输入信号。 $i$ 是输出的值第i位置的值，j代表所有可能位置。

$y\mathbf{y}$ 与 $x\mathbf{x}$ 具有相同大小的维度。

$C (x)$ 是正则化常量

$f$ 代表两处变量的关系

非局部模块十分的灵活，可以放在网络的前面，可以很容易与循环层，卷积层放到一起。

实例

为了简便考虑，g就作为一个简单的线性变换 $g(xj)=Wgxjg\left(\mathbf{x}_{j}\right)=W_{g} \mathbf{x}_{j}$ ，其中 $W_g$ 是作为需要学习的参数。

接下来我们考虑函数 $f$ :

Gaussian

$f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=e^{\mathbf{x}_{i}^{T} \mathbf{x}_{j}}$

自然的想法就是使用高斯函数。其中 $C(x)=∑∀jf(xi,xj).\mathcal{C}(\mathbf{x})=\sum_{\forall j} f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right).$

Embedded Gaussian

$f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=e^{\theta\left(\mathbf{x}_{i}\right)^{T} \phi\left(\mathbf{x}_{j}\right)}$

其中 $θ(xi)=Wθxi\theta\left(\mathbf{x}_{i}\right)=W_{\theta} \mathbf{x}_{i}$ and $ϕ(xj)=Wϕxj\phi\left(\mathbf{x}_{j}\right)=W_{\phi} \mathbf{x}_{j}$ ，我们同样可以设置 $C(x)=∑∀jf(xi,xj).\mathcal{C}(\mathbf{x})=\sum_{\forall j} f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right).$

于是这个计算就变成了softmax： $y=softmax⁡(xTWθTWϕx)g(x)\mathbf{y}=\operatorname{softmax}\left(\mathbf{x}^{T} W_{\theta}^{T} W_{\phi} \mathbf{x}\right) g(\mathbf{x})$

Dot Product

$f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\theta\left(\mathbf{x}_{i}\right)^{T} \phi\left(\mathbf{x}_{j}\right)$

设置 $C (x) = N$ , 其中N是位置 $x$ 的个数

Concatenation

$f\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\operatorname{ReLU}\left(\mathbf{w}_{f}^{T}\left[\theta\left(\mathbf{x}_{i}\right), \phi\left(\mathbf{x}_{j}\right)\right]\right)$

其中 $W_f$ 是一个将组合映射到标量的权重向量。我们设置 $C （ x ） = N$ .

非局部块

定义：
$\mathbf{z}_{i}=W_{z} \mathbf{y}_{i}+\mathbf{x}_{i}$
$y_i$ 是式子（1）的结果， $x_i$ 表示残差连接（residual connection）是为了使我们可以添加非局部块到任何提前训练（pre-trained）的模型而不破坏模型结构（比如如果 $W_z$ 被初始化为0）。图二是一个例子

在这里插入图片描述

这里可以通过矩阵乘法和加法巧妙的实现非局部变换。

写下来截图的部分便是前文提到的embedding Gaussian的 $f$

在这里插入图片描述

这里 $θ\theta$ 和 $ϕ\phi$ 函数都对输入信号进行了降低通道处理。（从 $T×W×H×1024T\times W \times H \times 1024$ 降到 $T×W×H×512T\times W \times H \times 512$ ）这样可以降低计算，同时也符合瓶颈算法设计。

同时文中说可以将（1）式修改为
$1c(x^)∑∀jf(xi,x^j)g(x^j) \frac{1}{c(\hat{\mathbf{x}})} \sum_{\forall j} f\left(\mathbf{x}_{i}, \hat{\mathbf{x}}_{j}\right) g\left(\hat{\mathbf{x}}_{j}\right)$
其中 $x^\hat{x}$ 表示池化后 $x$ 的子采样。我们通过给 $θ\theta$ 和 $ϕ\phi$ 添加赤化层达到这个效果，从而可以使得计算降低1/4.