Adaptively Connected Neural Networks
introduction
CNN对比MLP的缺点:
由于只从像素的周围像素抽象出信息,所以每一层的CNN缺乏global inference的能力。(实际应用中,CNN通过堆叠大量的局部卷积操作老i获取全局推断的能力,但又具有计算无效率,优化困难,消息传递效率低等限制。)
解决CNN局部性的问题,有non-local network:但当non-locality增加时,训练精度和验证精度都会下降,作者推断是由于over-globalization。
所以基于上述两个问题(缺乏和过度),作者提出了(ACNet),主要贡献如下:
1,提出了一个概念简单但是功能强大的网络,网络可以学习对于通用数据集的全局推断和局部推断的能力。
2,是首个在计算机视觉和机器学习领域,继承了MLP和CNN的优点克服了他们的缺点的算法。
Adaptive-Connected Neural Network
x是输入信号(图像,声音,图矩阵等)获取对应的输出信号的方式如下:
y
i
=
α
i
∑
i
=
j
x
i
u
i
j
+
β
i
∑
j
∈
N
(
i
)
x
j
v
i
j
+
γ
i
∑
∀
j
x
j
w
i
j
y_i = \alpha_i \sum_{i=j}x_iu_{ij}+\beta_i\sum_{j\in{N(i)}}x_jv_{ij}+\gamma_i\sum_{\forall j}x_jw_{ij}
yi=αii=j∑xiuij+βij∈N(i)∑xjvij+γi∀j∑xjwij
y
i
y_i
yi表示输出信号的第i个输出节点(特征图中的第i个像素),j是一些可能和第i个节点相联系的节点。分为3个子集{第i个节点本身}{i节点的邻居节点N(i)}{所有可能的节点},这3个子集表明3中推断模式:自变换,局部推断,全局推断。
u
i
j
,
w
i
j
,
v
i
j
{u_{ij},w_{ij},v_{ij}}
uij,wij,vij表示可学习权重。
ACNet通过适应性学习的
α
,
β
,
γ
{\alpha,\beta,\gamma}
α,β,γ,这三个是简单的标量变量,可以在所有的channel上分享。通过固定
α
+
β
+
γ
=
1
,
且
α
,
β
,
γ
∈
[
0
,
1
]
\alpha+\beta+\gamma=1, 且\alpha,\beta,\gamma\in [0,1]
α+β+γ=1,且α,β,γ∈[0,1],且定义
α
=
e
γ
α
e
γ
α
+
e
γ
β
+
e
γ
α
\alpha =\frac{e^{\gamma_\alpha}}{e^{\gamma_\alpha}+e^{\gamma_\beta}+e^{\gamma_\alpha}}
α=eγα+eγβ+eγαeγα
α
,
β
,
γ
\alpha,\beta,\gamma
α,β,γ可以通过标准反向传播学习。
∑
∀
j
x
j
w
i
j
\sum_{\forall j}x_jw_{ij}
∑∀jxjwij是计算量高损耗的,应该这个等价于对特征图的全连接,可能导致潜在的过拟合,为了克服这个缺点,在加入该计算之前实践中通过对x进行下采样。
如果
α
,
β
,
γ
\alpha,\beta,\gamma
α,β,γ是标量。自适应决定全局/局部推断的连接,是一种对全部数据集的平均连接,
α
,
β
,
γ
\alpha,\beta,\gamma
α,β,γ可以表示为:
γ
i
=
γ
i
(
x
)
=
w
γ
i
,
2
f
(
w
γ
i
,
1
[
∑
i
=
j
x
i
u
i
j
,
∑
j
∈
N
(
i
)
x
j
v
i
j
,
∑
∀
j
x
j
w
i
j
]
)
\gamma_i = \gamma_i(x)=w_{\gamma_i,2}f(w_{\gamma_i,1}[\sum_{i=j}x_iu_{ij},\sum_{j\in{N(i)}}x_jv_{ij},\sum_{\forall j}x_jw_{ij}])
γi=γi(x)=wγi,2f(wγi,1[i=j∑xiuij,j∈N(i)∑xjvij,∀j∑xjwij])
Relation to Rrior Works
α
=
0
,
β
=
1
,
γ
=
0
{\alpha=0,\beta=1,\gamma=0}
α=0,β=1,γ=0 <=> CNN
α
=
0
,
β
=
0
,
γ
=
1
{\alpha=0,\beta=0,\gamma=1}
α=0,β=0,γ=1 <=> MLP
NLN(non-local network)
v
i
j
v_{ij}
vij表示节点i和节点j之间的相似度,这会造成非常大的计算损耗且容易过拟合。我们提出的ACNet使用了可学的权重,且使用降采样解决全局推断的高计算量的问题。
Generalization to Non-Euclidean Data
Training,Inference,and Implementation
1,
Φ
=
{
α
,
β
,
γ
}
,
Θ
表
示
网
络
学
习
的
参
数
\Phi = \{\alpha,\beta,\gamma\},\Theta 表示网络学习的参数
Φ={α,β,γ},Θ表示网络学习的参数训练ACNet可以通过最小化损失函数
L
(
Θ
,
Φ
)
L(\Theta,\Phi)
L(Θ,Φ)实现。
2,适用于现在CNN的技巧,比如batch norm, short-cut等
experiment
论文中的实验都是分类或者检测,而不是像素级别的预测,在分割等任务中不一定有效。获取适应的全局推断和局部推断也是基于分类任务的思想。
Adapatively Connected Neural Network:https://arxiv.org/pdf/1904.03579.pdf
non-local network:https://arxiv.org/abs/1711.07971v1
non-local network笔记:Non-local Neural Networks