场景识别与目标识别技术综述
1. 卷积神经网络与基于部分的方法对比
在场景识别领域,卷积神经网络(ConvNets)虽借助大规模图像数据库取得了显著进展,但在某些特定场景下,其表现并不理想。例如,要回答关于场景类别中对象归属等四个问题时,ConvNets仅能立即回答其中一个问题。若要回答其余三个问题,需对其架构进行重大更改,包括输出层,这会显著增加标注训练示例的工作量,且所需训练示例数量可能也会增多。
相比之下,基于部分的方法表现更优。它基于场景类别应如何建模的概念,所提出的场景分类器的底层模型与要解决的场景识别问题的输出完全匹配。使用基于部分的表示时,只需学习模型的参数,而无需学习模型本身的特征。常见的启发式方法是尽可能少地建模,但又要满足必要需求,这就需要对要解决的问题有精确的定义。
2. 基于部分的目标识别
2.1 概述
基于部分的表示主要用于目标识别,通过关系连接未指定的对象部分。这种表示方式适合建模通用目标类别,如椅子,因为它能表达建模部分外观和相对姿态的不确定性。场景识别的基于部分的表示借鉴自目标识别。例如,有研究通过两层星座模型的层次结构来描述场景类别。
文献中基于部分的目标识别表示在建模对象类别中关系的拓扑结构上有所不同。除了少数例外,大多数基于部分的表示仅限于使用单一类型的关系拓扑。目前的表示主要是为二维图像数据分类而开发的,关系最多可在3自由度中建模,常见的三种规范表示中,关系通常用相对二维位置描述,部分还可考虑相对一维方向。
2.2 星座模型(Constellation Models)
星座模型在关系拓扑表示上是极端情况,它对对象(类别)各部分的所
超级会员免费看
订阅专栏 解锁全文
828

被折叠的 条评论
为什么被折叠?



