通用人工智能视觉系统与语义图像检索的研究进展
1. 通用人工智能视觉系统框架
1.1 判别模型
判别模型在图像识别领域有着重要应用,深度卷积神经网络(DCNNs)在图像识别中表现出色。然而,对于通用人工智能(AGI)的视觉任务而言,DCNNs存在一些不足。
- 任务范围局限 :AGI的视觉任务更为广泛,不仅要通过图像识别物体,还需构建包含物体形状、姿态、反射率图等信息的场景描述。虽然DCNNs也用于目标检测、3D重建和语义分割,但效果并不理想。例如,用于解决同步定位与地图构建(SLAM)问题的神经网络架构与纯判别式的DCNNs有很大差异。
- 数据依赖与泛化能力弱 :应用中的DCNNs通常在标注数据上进行训练。构建AGI时,尽管可以使用预训练模型,但新模型的训练不可避免。此时,手动标注数据缺失,判别模型需基于生成模型进行训练,学习信号变弱。经典DCNNs的泛化效率极低,只能在训练样本范围内进行插值,无法对训练范围外的情况进行泛化。例如,若DCNN未见过某类物体在特定角度范围内的旋转情况,即便它能识别其他类物体在所有角度的情况,也无法识别该类物体在新角度下的样子。
为解决泛化能力弱的问题,可以采用一些方法,如引入动态寻址,像具有外部存储器的模型或胶囊网络。但胶囊网络只能部分解决弱泛化问题。例如,在对MNIST数字进行实验时,用CapsNets对六个任意旋转的数字和两个在[-45°, 45°]范围内旋转的数字(3和4)进行训练,在训练集上对3和4在[-45°, 45°]范围内旋转的识别精度较高,但在180° ± 45°时精度极低。
通用AI视觉与语义检索研究
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



