Adaptively Connected Neural Networks

最新推荐文章于 2024-06-14 09:44:33 发布

翻译最新推荐文章于 2024-06-14 09:44:33 发布 · 2k 阅读

本文介绍了自适应连接神经网络（ACNet）。指出CNN缺乏全局推断能力，non - local network存在过度全局化问题。ACNet可学习全局和局部推断能力，继承MLP和CNN优点。阐述了其输出信号获取方式、训练方法等，还提及实验多为分类或检测任务。

Adaptively Connected Neural Networks

introduction

CNN对比MLP的缺点：
由于只从像素的周围像素抽象出信息，所以每一层的CNN缺乏global inference的能力。（实际应用中，CNN通过堆叠大量的局部卷积操作老i获取全局推断的能力，但又具有计算无效率，优化困难，消息传递效率低等限制。）

解决CNN局部性的问题，有non-local network：但当non-locality增加时，训练精度和验证精度都会下降，作者推断是由于over-globalization。

所以基于上述两个问题（缺乏和过度），作者提出了（ACNet），主要贡献如下：
1，提出了一个概念简单但是功能强大的网络，网络可以学习对于通用数据集的全局推断和局部推断的能力。
2，是首个在计算机视觉和机器学习领域，继承了MLP和CNN的优点克服了他们的缺点的算法。

Adaptive-Connected Neural Network

x是输入信号（图像，声音，图矩阵等）获取对应的输出信号的方式如下:
$y_i = \alpha_i \sum_{i=j}x_iu_{ij}+\beta_i\sum_{j\in{N(i)}}x_jv_{ij}+\gamma_i\sum_{\forall j}x_jw_{ij}$
$y_i$ 表示输出信号的第i个输出节点（特征图中的第i个像素），j是一些可能和第i个节点相联系的节点。分为3个子集{第i个节点本身}{i节点的邻居节点N(i)}{所有可能的节点}，这3个子集表明3中推断模式：自变换，局部推断，全局推断。 ${u_{ij},w_{ij},v_{ij}}$ 表示可学习权重。
ACNet通过适应性学习的 ${\alpha,\beta,\gamma}$ ,这三个是简单的标量变量，可以在所有的channel上分享。通过固定 $\alpha+\beta+\gamma=1, 且\alpha,\beta,\gamma\in [0,1]$ ，且定义
$\alpha =\frac{e^{\gamma_\alpha}}{e^{\gamma_\alpha}+e^{\gamma_\beta}+e^{\gamma_\alpha}}$ $\alpha,\beta,\gamma$ 可以通过标准反向传播学习。 $\sum_{\forall j}x_jw_{ij}$ 是计算量高损耗的，应该这个等价于对特征图的全连接，可能导致潜在的过拟合，为了克服这个缺点，在加入该计算之前实践中通过对x进行下采样。
如果 $\alpha,\beta,\gamma$ 是标量。自适应决定全局/局部推断的连接，是一种对全部数据集的平均连接， $\alpha,\beta,\gamma$ 可以表示为：
$\gamma_i = \gamma_i(x)=w_{\gamma_i,2}f(w_{\gamma_i,1}[\sum_{i=j}x_iu_{ij},\sum_{j\in{N(i)}}x_jv_{ij},\sum_{\forall j}x_jw_{ij}])$

Relation to Rrior Works

${\alpha=0,\beta=1,\gamma=0}$ <=> CNN
${\alpha=0,\beta=0,\gamma=1}$ <=> MLP
NLN(non-local network) $v_{ij}$ 表示节点i和节点j之间的相似度，这会造成非常大的计算损耗且容易过拟合。我们提出的ACNet使用了可学的权重，且使用降采样解决全局推断的高计算量的问题。

Generalization to Non-Euclidean Data

Training,Inference,and Implementation

1， $\Phi = \{\alpha,\beta,\gamma\},\Theta 表示网络学习的参数$ 训练ACNet可以通过最小化损失函数 $L(\Theta,\Phi)$ 实现。
2，适用于现在CNN的技巧，比如batch norm， short-cut等

experiment

论文中的实验都是分类或者检测，而不是像素级别的预测，在分割等任务中不一定有效。获取适应的全局推断和局部推断也是基于分类任务的思想。

Adapatively Connected Neural Network：https://arxiv.org/pdf/1904.03579.pdf
non-local network:https://arxiv.org/abs/1711.07971v1
non-local network笔记：Non-local Neural Networks