Abstract
CV是一种机器理解与分析图像的过程,是人工智能的一个重要分支。在CV众多的研究领域中,细粒度图像分析(FGIA)是一个持续基础的工作,是真实世界应用中普遍存在的问题。FGIA的目标是区分视觉目标的子类别,例如,鸟的类别或者车辆的类别。细粒度特性导致的小类内变化与大类间变化使得细粒度分类称为一个具有挑战性的问题。随着深度学习爆炸式的发展,近些年来FGIA利用深度学习技术取得了重大的进展。本文中我们希望对基于深度学习的FGIA技术进行系统性的介绍。特别的是,我们将现有的FGIA方法归为三类:细粒度图像识别,细粒度图像检索与细粒度图像生成。此外,我们还介绍了其他重要的FGIA相关内容,例如公开基准测试数据集与相关领域的应用。最后,我们通过讨论一些需要社区进一步探索的方向与开放问题将本文做总结。
1、Introduction
CV是人工智能的一个交叉学科,主要处理数字图像与视频高级别理解问题。CV的任务包括获取,处理,分析,理解数字图像并且丛冲提取数字或者符号特征,例如,从真实情形下原始图像数据做出决策与预测。
FGIA是计算机视觉领域是一个有趣、基础且有挑战性的问题,在几十年来一直是研究的热点之一。FGIA的目标是从属于一个大类的子类中进行检索、识别、生成样本,例如不懂种类的动物植物,不同车辆的型号,不同零售商品类别等(间图1)。真实世界中,FGIA无论是在工业界还是学术界都有广泛的应用,例如自动生物多相信监测、气候变化评估、智能新零售、智慧交通等许多方面。特别是有许多流行的FGIA学术竞赛在kaggle举办。一些具有代表性的比赛,例如:自然保护协会渔业监测(用于鱼类种类识别),驼背鲸识别(用于鲸鱼种类识别)等等。每个比赛都吸引了不止300个来自全球各地的队伍参加,有些甚至有2000只队伍参加。
另一个方面,近些年出现的深度学习技术【LeCun et al.,2015】是一种强大的直接从数据中学习特征表达的方法,在FGIA领域带来了巨大的突破。今年不完全统计,每个AI或者CV的会议都有10篇基于深度学习的FGIA技术发表,例如IJCAI,AAAI,CVPR,ICCV,ECCV等。这显示出基于深度学习的FGIA是值得注意的感兴趣研究领域。考虑到一个领域快速的发展,本文的目标是提供一个综述,介绍基于深度学习的FGIA技术近期的发展。
在文献中,有些现有及关于细粒度任务的综述资料,例如【Zhao et al.,2017】,文献中仅仅包含一些细粒度识别算法的对比。我们与他们工作的不同在于我们的工作更综合。特别的是,除了细粒度识别任务,我们还讨论了另外两个细粒度核心任务,细粒度图像检索与细粒度图像生成,这两个方面FGIA两个重要的组成部分,是不容忽视的。此外,另外一个环太平洋国家重要的AI会议PRICAL上,Wei与Wu组织了特别的关于细粒度图像分析主题的介绍。我们建议感兴趣的读者参考这份介绍,这份介绍中提供了额外的细节信息。
本文中,我们的综述采用基于深度学习的视角,系统性与综合性的介绍了FGIA目前的进展。本文的主要贡献有三个方面:
- 我们给出了基于深度学习的FGIA技术的综合性回顾,包括问题背景、测试基准数据集、基于深度学习的系列FGIA方法,FGIA特定领域的应用等。
- 我们以层次和结构的方式系统的介绍了结余FGIA的技术,见图2。
- 我们讨论了挑战与开放性的问题,介绍了新的趋势与未来的方向,为细粒度识别的研究人员或者其它AI社区的感兴趣人员提供了现在的路线图。
综述组织如下。第二节介绍了本文的背景,例如FGIA的问题已经主要的挑战。第三节我们回顾了多个经常使用的细粒度测试基准数据集。第四节分析了三个细粒度图像识别主要的样例。第五节讨论了生成的角度细粒度图像生成的问题。此外,在第七节,我们介绍了现实世界FGIA相关的特别应用。最后在第八节中,我们总结了本文,并且讨论了未来的方向与未解决的问题。
2、Background:problem and main challenges
本节中,我们总结了本文相关的背景,包括问题与关键的挑战。
细粒度图像分析(FGIA)专注于处理属于同一大类不同子类的问题(例如,鸟、狗与车辆),通常包括主要任务例如细粒度图像识别,细粒度图像检索,细粒度图像生成等。
将FGIA与其它通用方法进行区分的是:通用图像分析中,