MobileNet系列2:MobileNetV2论文解读

目录

一. 创新点

1. 先看看MobileNetV2 和 V1之间有啥不同

2. 再看看MobileNetV2的block 与ResNet 的block:

二. 正文

三. MobileNet-V2网络结构

参考资料


MobileNetV2是对MobileNetV1的改进,同样是一个轻量化卷积神经网络。

一. 创新点

1. Inverted residuals,通常的residuals block是先经过一个1*1的Conv layer,把feature map的通道数“压”下来,再经过3*3 Conv layer,最后经过一个1*1 的Conv layer,将feature map 通道数再“扩张”回去。即先“压缩”,最后“扩张”回去。
而 inverted residuals就是 先“扩张”,最后“压缩”。为什么这么做呢?请往下看。

2.Linear bottlenecks,为了避免Relu对特征的破坏,在residual block的Eltwise sum之前的那个 1*1 Conv 不再采用Relu,为什么?请往下看。

创新点全写在论文标题上了!

由于才疏学浅,对本论文理论部分不太明白,所以选取文中重要结论来说明MobileNet-V2。

1. 先看看MobileNetV2 和 V1之间有啥不同

这里写图片描述

 主要是两点:

1) Depth-wise convolution之前多了一个1*1的“扩张”层,目的是为了提升通道数,获得更多特征;

2) 最后不采用Relu,而是Linear,目的是防止Relu破坏特征。

2. 再看看MobileNetV2的block 与ResNet 的block:

这里写图片描述

主要不同之处就在于,ResNet是:压缩”→“卷积提特征”→“扩张”,MobileNetV2则是Inverted residuals,即:“扩张”→“卷积提特征”→ “压缩”。

二. 正文

MobileNet-V1 最大的特点就是采用depth-wise separable convolution来减少运算量以及参数量,而在网络结构上,没有采用shortcut的方式。
Resnet及Densenet等一系列采用shortcut的网络的成功,表明了shortcut是个非常好的东西,于是MobileNet-V2就将这个好东西拿来用。

拿来主义,最重要的就是要结合自身的特点,MobileNet的特点就是depth-wise separable convolution,但是直接把depth-wise separable convolution应用到 residual block中,会碰到如下问题:

1.DWConv layer层提取得到的特征受限于输入的通道数,若是采用以往的residual block,先“压缩”,再卷积提特征,那么DWConv layer可提取得特征就太少了,因此一开始不“压缩”,MobileNetV2反其道而行,一开始先“扩张”,本文实验“扩张”倍数为6。 通常residual block里面是 “压缩”→“卷积提特征”→“扩张”,MobileNetV2就变成了 “扩张”→“卷积提特征”→ “压缩”,因此称为Inverted residuals

2.当采用“扩张”→“卷积提特征”→ “压缩”时,在“压缩”之后会碰到一个问题,那就是Relu会破坏特征。为什么这里的Relu会破坏特征呢?这得从Relu的性质说起,Relu对于负的输入,输出全为零;而本来特征就已经被“压缩”,再经过Relu的话,又要“损失”一部分特征,因此这里不采用Relu,实验结果表明这样做是正确的,这就称为Linear bottlenecks

三. MobileNet-V2网络结构

这里写图片描述

 其中:t表示“扩张”倍数,c表示输出通道数,n表示重复次数,s表示步长stride。
先说两点有误之处吧:
1. 第五行,也就是第7~10个bottleneck,stride=2,分辨率应该从28降低到14;如果不是分辨率出错,那就应该是stride=1;
2. 文中提到共计采用19个bottleneck,但是这里只有17个。

Conv2d 和avgpool和传统CNN里的操作一样;最大的特点是bottleneck,一个bottleneck由如下三个部分构成:
这里写图片描述

 这就是之前提到的inverted residuals结构,一个inverted residuals结构的Multiply Add=
h*w*d’ * 1*1*td’ + h*w*td’ * k*k*1 + h*w*t d’ * 1*1*d” = h*w*d’*t(d’+ k*k + d”)

特别的,针对stride=1 和stride=2,在block上有稍微不同,主要是为了与shortcut的维度匹配,因此,stride=2时,不采用shortcut。 具体如下图:
这里写图片描述

 可以发现,除了最后的avgpool,整个网络并没有采用pooling进行下采样,而是利用stride=2来下采样,此法已经成为主流,不知道是否pooling层对速度有影响,因此舍弃pooling层?是否有朋友知道那篇论文里提到这个操作?

看看MobileNet-V2 分类时,inference速度:
这里写图片描述

 这是在手机的CPU上跑出来的结果(Google pixel 1 for TF-Lite)

同时还进行了目标检测和图像分割实验,效果都不错,详细请看原文。

参考资料

2018 MobileNetV2:《Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation》https://arxiv.org/abs/1801.04381


 

### DeepSeek R1V3的主要差异 #### 架构设计 DeepSeek-V3采用了更先进的架构设计,在处理复杂任务方面表现出更高的效率和准确性。相比之下,DeepSeek-R1虽然同样具备强大的性能,但在某些特定场景下的表现可能不如V3版本[^1]。 #### 参数量对比 DeepSeek-V3拥有更大的参数规模,这使得其能够学习到更加复杂的模式并应用于更为广泛的领域。而满血版671B模型更是代表了目前最顶级的技术水平之一。相较之下,R1系列尽管也有着不俗的表现力,但总体而言还是略逊一筹于V3版本。 #### 应用范围扩展 随着技术的进步发展,V3不仅继承和发展了前代产品的优点,还进一步拓宽了自己的应用场景。例如,在AI编程辅助工具——通义灵码中已经全面支持这两款新型号,并且可以预见未来会有更多创新性的应用诞生于此基础之上。 #### 性能优化 针对实际使用过程中遇到的问题进行了针对性改进,提高了运行速度的同时降低了资源消耗;另外通过引入一些新技术手段实现了更好的泛化能力以及更强的数据理解力,从而让整个系统的稳定性和可靠性得到了显著提升。 ```python # 这是一个简单的Python脚本用于展示两个不同版本之间调用方式的变化 def use_deepseek_v3(): model = load_model('deepseek-v3') # 加载最新的V3模型 result = model.predict(data) # 预测数据 return result def use_deepseek_r1(): model = load_model('deepseek-r1') # 加载较早的R1模型 output = model.inference(input_data)# 推理输入数据 return output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值