Shrivastava, Ashish, et al. “Learning from simulated and unsupervised images through adversarial training.” IEEE Conference on Computer Vision and Pattern Recognition.2017
概述
本文是Apple在机器学习领域的首秀,同时也是CVPR 2017的两篇Best Paper之一。
在使用深度学习结局实际问题时,我们常常遇到以下的局面:
类别 | 品质 | 标记 | 数量 |
---|---|---|---|
监督数据 | 真实 | 有 | 少 |
无监督数据 | 真实 | 无 | 大 |
合成数据 | 不真实 | 有 | 大 |
本文举了两个例子:视线方向识别和手势识别。
- 两种问题的标定都十分困难,使得监督数据昂贵而稀少。
- 可以用CG模型合成数据。这些数据的视线方向和手关节位置已知,但画面不够真实。
本文利用GAN思想,通过无监督数据提升合成数据的质量,同时不改变合成数据的标记。之后使用优化过的合成数据训练模型。
方法
系统框架
类似GAN网络,本文系统中包含两个核心模块
- 改善器 R R R:输入合成数据,输出改善结果。
- 鉴别器 D D D:判断输入是真实数据还是经过改善的合成数据。
注意,训练的最终目的是生成改善后的合成数据。而不是改善器或者鉴别器本身。
优化
相关的代价有三种
- 代价1:鉴别器识别改善图像的错误率。
- 代价2:鉴别器识别真实图像的错误率。
- 代价3:改善图像和原始图像的逐像素差。
其中,代价3保证改善图像和原始图像的类标相同。例如,保证手势姿态不变,保证视线方向不变。除了直接比较像素,还可以提取图像特征之后在做差。
在每一轮迭代中:
- 最大化代价1,最小化代价3,优化改善器