深度学习在图像识别中的应用调研

目前,深度学习在图像、语音、自然语言处理都取得了重大突破。深度学习(卷积神经网络)最初是为解决图像识别问题而提出的。目前深度学习在图像识别中的应用主要集中于图像分类、目标检测、图像分割等领域。

图像分类

图片分类的任务是对于一个给定的图片,预测其类别标签。

深度学习在图像分类上的应用可追溯到最初银行支票上的手写数字自动识别,现在的人工智能三巨头之一Yan LeCun在1994年提出了LeNet,使用卷积来提取空间特征,进行手写字符的识别与分类,准确率达到了98%,并在美国的银行中投入了使用,被用于读取北美约10%的支票,LeNet将卷积、池化和非线性激活函数相结合,奠定了现代卷积神经网络的基础。

之后随着每年ImageNet比赛的成功举办,深度学习在图像分类中的精度逐渐提升。2012年Hinton的学生Alex Krizhevsky提出了AlexNet,并获得当年Imagenet比赛冠军,AlexNet可以算是LeNet的一种更深更宽的版本,证明了卷积神经网络在复杂模型下的有效性,算是神经网络在低谷期的第一次发声,确立了深度学习,或者说卷积神经网络在计算机视觉中的统治地位。

2014年,牛津大学计算机视觉组和Google DeepMind公司一起研发了深度卷积神经网络VGGNet,并取得了当年Imagenet比赛定位项目第一名和分类项目第二名。该网络主要是泛化性能很好,容易迁移到其他的图像识别项目上,可以下载VGGNet训练好的参数进行很好的初始化权重操作,现在很多卷积神经网络都是以该网络为基础,比如FCN,UNet,SegNet等。vgg版本很多,常用的是VGG16,VGG19网络。

2015年,ResNet(残差神经网络)由微软研究院的何凯明等4名华人提出,成功训练了152层超级深的卷积神经网络,效果非常突出,而且容易结合到其他网络结构中。在五个主要任务轨迹中都获得了第一名的成绩(ImageNet分类任务,ImageNet检测任务,ImageNet定位任务,COCO检测任务,COCO分割任务)。

2015年 Szegedy等人提出了 GoogLeNet,在卷积神经网 络中搭建多个 inception模块,以增加卷积神经网络的深度和宽度。由于 inception模块中卷积核的尺寸较小,GoogLeNet的训练参数大约 50万个,只有 AlexNet参数数量的 1/12,但是在 ImageNet数 据集上图像识别的准确度提高了 10%左右。

2016,2017年的ImageNet比赛,来自中国的团队大放异彩,商汤科技,公安部三所,HikVision(海康威视),NUIST(南京信息工程大学)都拿到过各个项目的冠军,网络结构多采用多个网络做集合。

目标检测

目标检测是指从一幅场景(图片)中找出目标,并用矩形框确定目标的位置。多应用于人脸识别、自动驾驶、遥感影像识别等领域。

目前基于深度学习的目标检测算法大致分为两类:

  • 基于区域建议的目标检测与识别算法,如R-CNN, Fast-R-CNN, Faster-R-CNN
  • 基于回归的目标检测与识别算法,如YOLO, SSD

2014年,Girshick(RGB大神)等人提出了 R-CNN模型。该模型利用 selective search方法从待检测图像中提取若干个候选区;然 后将候选区转换为统一的大小,使用卷积神经网络对其进行特征提取;最后运用多个 SVM对特征进行分类,完成多目标检测。 由于选择了较好的候选区以及使用了AlexNet判定候选区所 属的类别,识别效果非常好,极大地提高了 PascalVOC数据集上的检测效果。

2015年,Girshick为了提高 R-CNN模型的检测速度,提出了 fast-R-CNN模型。该模型仍然利用selective search方法从待检测图像中提取若干个候选区。相比于 R-CNN模型对每个候选区都提取特征,fast-R-CNN只对待检测 图像提取特征;然后将候选区对应的特征图通过空间金字塔池 化层映射为固定长度的特征向量;最后特征经过全连接的神 经网络进行分类,并且预测边界框的坐标,对候选区进行修正,大幅提升了目标检测的速度。

2015年,继R-CNN,fast-R-CNN之后,目标检测界的领军人物Ross Girshick团队(包括华人科学家任少卿,何凯明大神,孙剑)又推出faster-R-CNN模型,该模型由用于提取候选区的卷积神经网络(RPN)和用于目标检测的卷积神经网络 fast-R-CNN构成。RPN对待检测图像中的每个位置都预测是否存在目标,并给出可能性最大的候选区。Fast-R-CNN 判别所有候选区的类别并预测目标的边界框,对候选区进行修正。由于RPN和fast-R-CNN共享了卷积神经网络特征提取的部分,只需提取一次待检测图像的特征,加快了目标检测的速度。

2015年,Joseph Redmon等人(Ross Girshick挂名)提出 YOLO模型,即you only look once,用来实现实时目标检测的一种神经网络,将一个物体检测作为一个回归问题求解,输出图像只需经过一次inference,便可直接获取到图像中物体位置,物体对应的类别及其置信度。由于YOLO没有显示求解region proposal,而是将该过程直接融合在网络中,所以避免了很多麻烦。

2015年Wei Liu等人提出了SSD,结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。SSD的核心是在特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。为了提高检测准确率,SSD在不同尺度的特征图上进行预测。

语义分割

语义分割也就是像素级别的分类,让计算机根据图像的语义来进行分割,确定边缘位置。目前应用有自动驾驶、医疗影像识别、遥感影像识别等领域。

传统的语义分割主要依赖使用人工提取特征和概率图模型,2015年Jonathan Long等提出了全卷积网络(FCN),将深度学习引入了语义分割领域,FCN这篇论文(Fully Convolutional Networks for Semantic Segmentation)的发表,成为了语义分割的一个重要转折点。FCN主要使用了卷积化(Convolutional)、上采样(Upsample)、跳跃结构(Skip Layer)三种技术。

2015年Vijay Badrinarayanan等人提出SegNet,主要贡献:将最大池化指数转移至解码器中,改善了分割分辨率。SegNet 没有复制 FCN中的编码器特征,而是复制了最大池化索引,这使得 SegNet 比 FCN 更节省内存。

2016年Liang-Chieh Chen等提出了DeepLab网络,DeepLabv1:结合深度卷积神经网络,使用空洞卷积(atrous convolution)进行语义分割。DeepLabv2:基于 DeepLabv1 的优化,使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)对物体进行有效的分割。DeepLabv3:采用多比例的带孔卷积级联或并行来捕获多尺度背景,基于图像特征优化 ASPP。DeepLabv3+ :对 DeepLabv3 的扩展,包括一个简单而高效的改善分割结果的解码器模块目前,DeepLabv3+版本已经开源。

2016年Hengshuang Zhao等提出了PSPNet网络,提出的金字塔池化模块( pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。

2017年何凯明等人提出了Mask R-CNN,在原有Faster R-CNN的基础上添加了一个分支网络把目标像素分割出来,对每个实例生成一个高质量的分割掩码。该论文(Mask R-CNN)获得了ICCV 2017的best paper,作为大神级人物,这也是他第三次斩获顶会最佳论文,另外,他参与的另一篇论文:Focal Loss for Dense Object Detection,也被大会评为最佳学生论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值