原文链接:Non-local Neural Networks
博文参考了这篇博主的部分理解,传送门:KFXW
Motivation
作者主要是想解决non-local的问题。在目前的深度网络中,一系列的卷积层构成了深度网络的主要架构,每一层网络可以理解为用一个核在该层输入上做卷积操作,由于卷积核通常是1X1, 3X3这种固定的尺寸,这使得输出feature map只能感受到对应输入fearute map点上周围点的信息,当网络层数加深时,feature map的感受野才会慢慢增大。
这使得深度网络在融合非局部信息的时候,会有明显的不足。此外,对于时序性的任务(视屏,语音,文字)而言,深度网络很难融合时序上的信息,这对这些任务而言可以说是一种信息浪费。
Contribution
基于以上原因,作者受non-local means的启发,提出了一种非局部模块(non-local block),这种模块可以将同一图像上相隔很远的像素点联系起来,也可以将视频中前后几帧中同一空间的像素联系起来。
Non-local Neural Networks
首先看看文中对non-local 的定义:
对于图像而言,Xi,Xj表示两个像素点