原文arxiv链接
Keras官方模型
网络上的文章对于ReLU在低维空间上操作时会丢失信息这一理解没有错,也能够说明为什么在倒残差结构中要移去最后一层的非线性激活函数,但是对于设计的动机解释的不清晰。
以下是个人理解:
每一个卷积块会学习出一个模式,而这个模式是在低维空间上线性的(原文把这种模式称作“兴趣流形”,这个流形可以在低维空间上展开),所以会在卷积块中增加一个低维的卷积层来学习这种模式,由于这个层比其它层维度低,所以形象的取名为瓶颈。一般的来说一个卷积层后会跟一个非线性激活ReLU层,但是ReLU激活函数在低维空间操作时会损失信息,所以新增的瓶颈层中不带有非线性激活层,所以这个层就被称作线性瓶颈。
以下是个人疑问:
原文中证明ReLU对可以在低维空间展开的流形操作没有损失,但如何证明神经网络学习的兴趣流形是可以在低维空间展开的呢?原文用了很不严谨的“It has been long assumed”。
以下是原论文线性瓶颈段落的中文翻译:
一个深度神经网络由 n n n层 L i L_i Li组成,每层有一个维度为 h i ∗ w i ∗ d i h_i*w_i*d_i h