MobileNetV2: Linear Bottleneck重解读与原文翻译

原文arxiv链接
Keras官方模型
网络上的文章对于ReLU在低维空间上操作时会丢失信息这一理解没有错,也能够说明为什么在倒残差结构中要移去最后一层的非线性激活函数,但是对于设计的动机解释的不清晰。
以下是个人理解:
每一个卷积块会学习出一个模式,而这个模式是在低维空间上线性的(原文把这种模式称作“兴趣流形”,这个流形可以在低维空间上展开),所以会在卷积块中增加一个低维的卷积层来学习这种模式,由于这个层比其它层维度低,所以形象的取名为瓶颈。一般的来说一个卷积层后会跟一个非线性激活ReLU层,但是ReLU激活函数在低维空间操作时会损失信息,所以新增的瓶颈层中不带有非线性激活层,所以这个层就被称作线性瓶颈。
以下是个人疑问:
原文中证明ReLU对可以在低维空间展开的流形操作没有损失,但如何证明神经网络学习的兴趣流形是可以在低维空间展开的呢?原文用了很不严谨的“It has been long assumed”。
以下是原论文线性瓶颈段落的中文翻译:
一个深度神经网络由 n n n L i L_i Li组成,每层有一个维度为 h i ∗ w i ∗ d i h_i*w_i*d_i h

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值