文章目录
1 摘要
语义分割的落地(应用于嵌入式设备如手机、可穿戴设备等低功耗移动设备)是一个很重要的问题,而最近提出的网络中,虽然有着较高的准确率,但是其实时性不强,也就是训练、推理的速度太慢,无法应用于真实的应用场景中。针对以上问题,作者提出了ENet,在保证较高准确率的基础上还能保证网络更轻量,更快,适合部署在手机等可移动嵌入式设备。经过测试,ENet在CamVid, Cityscapes 和 SUN等数据集中均达到当时的SOTA( state-of-the-art:最好效果)。
2 亮点
2.1 initial模块和bottlebeck模块
本文中,构成ENet的基本单元是initial模块和bottlebeck模块。
2.1.1 initial模块
initial模块作为图像输入先进行处理的模块,可以说是一个图像的前处理模块。如下图:
原始输入图像为3x512x512,分别经过13x3x3的卷积核以步长为2的方式去提取特征图;一个最大池化层,一开始就使用池化层进行下采用目的是刚开始的输入图像存在很多冗余信息,池化前后对最终的准确率影响不大但是却能一开始就避免使用很多冗余的信息。然后一个经过13x3x3的卷积核+池化后3x256x256的图像进行通道数的拼接得到16x256x256的特