5、计算机视觉中的场景与对象识别技术解析

计算机视觉中的场景与对象识别技术解析

1. 卷积神经网络与基于部分的方法对比

在场景和对象识别领域,卷积神经网络(ConvNet)取得了显著进展,但在某些特定场景下,基于部分的方法表现更为出色。

卷积神经网络在回答一些场景识别问题时存在局限性。例如,要回答关于输入数据中哪些对象属于“X”类场景的问题,ConvNet需要对其拓扑结构进行重大更改。而且,ConvNet在不同层提取的特征并非预先确定,而是从训练示例中不透明地出现,这使得我们无法保证每个场景类别中的对象都能在学习到的ConvNet的任何层中作为特征被搜索。相比之下,我们提出的场景分类器从定义上就能提供准确和完整的答案。

如果想让ConvNet回答其他几个问题,不仅需要对其架构进行重大更改,包括输出层,还会显著增加标记训练示例的工作量,并且可能需要更多的训练示例。基于部分的方法之所以在这种情况下优于ConvNet,是因为它基于如何对场景类别进行建模的概念,其底层模型与场景识别问题的输出精确匹配。使用基于部分的表示时,我们只需要学习模型的参数,而无需学习模型本身的特征。

2. 基于部分的对象识别方法
2.1 概述

基于部分的表示主要用于对象识别,它通过关系连接未指定的对象部分。这种表示方式非常适合对通用对象类别进行建模,例如椅子,因为它可以表达建模部分的外观以及这些部分之间相对姿势的不确定性。场景识别的基于部分的表示是从对象识别中借鉴而来的。

一个突出的例子是通过两层星座模型(Constellation Models)的层次结构来描述场景类别。上层星座模型涉及场景类别所包含的对象类别以及它们之间的关系,而下层的多个星座模型描述了这些对象类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值