MobileNet V1论文阅读和代码解析

本文深入探讨MobileNet V1论文,重点关注其核心——深度可分离卷积,以及如何通过宽度因子和分辨率因子调整模型大小。详细解析网络结构,包括每层的卷积操作,并提供了 TensorFlow 实现的关键代码片段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

论文阅读

代码解析

 

论文阅读

1.前言

自从AlexNet在2012年获得ImageNet冠军以来,卷积神经网络在计算机视觉中随处可见。为了获得更高的准确率,现在的趋势是让网络越来越深,越来越复杂。然而这些改进会影响到网络的大小和速度。在很多现实世界的应用中,比如机器人,自动驾驶,增强现实等,需要图像识别任务在有限的计算资源平台上做出及时的反应。

这篇论文描述了一个很高效的网络模型和两个超参数,来实现比较小的模型去满足手机和嵌入式设备的需求。

其实最近已经开始有一些论文对小而高效的论文感兴趣了。很多不同的尝试但是都可以总结为要么压缩预训练网络要么直接训练小型的网络。而这篇文章是要设计一种网络架构能够适应不同的资源限制。MobileNet主要关注的是优化延迟,而其他很多文章主要考虑网络大小而不考虑速度。

2.MobileNet结构

2.1 Depthwise Separable Convolution

MobileNet的基础是Depthwise Separable Convolution(深度可分离卷积),这种卷积是将卷积进行了分解,分解成了一个depthwise convolution和一个1x1的卷积叫做pointwise convolution。Depthwise卷积是对input的每一个channel有一个filter,Pointwise卷积是对depthwise计算出来的结果进行1x1的卷积运算。标准的卷积运算是一步中就包含了filter计算和合并计算,然后直接将输入变成一个新的尺寸的输出。Depthwise separable convolution是将这个一步的操作分成了两层,一层做filter计算,一层做合并计算。这种分解的方式极大的减少了计算量和模型的大小。

先对上图的输入输出尺寸做一些说明。输入是尺寸为D_F\times D_F \times M,输出的尺寸为D_F\times D_F \times ND_F是输入的长宽,M是输入的channel(可以认为是depth),假设输出长宽不变D_F也是输出的长宽,N是输出的channel。

图(a)是标准的卷积运算需要的filter。对于标准的卷积计算方式,需要尺寸为D_K \times D_K\times M\times N的kernel,D_K是kernel的长宽。所以计算次数会是D_K\times D_K\times M\times N\times D_F\times D_F

图(b)是Depthwise卷积计算需要的filter。计算过程是将input的每一个channel都分开,为每一个channel设置一个kernel,因此需要

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值