被动场景识别:原理、挑战与优化策略
1. 场景识别中的ISM模型差异
在场景识别中,不同的ISM(Indexed Scene Model)模型会有不同的表现。以红色谷物盒为参考的ISM模型,能接受特定的物体配置符合已学习的场景类别模型,但另一个ISM模型却并非如此。例如,在一张图片中的ISM模型,它对盘子和杯子之间的关系进行了建模,只有当杯子位于盘子右侧时,物体配置才满足这种关系,因为在整个演示过程中只观察到了这种设置。该ISM模型会注意到盘子实际姿态与预期姿态之间的差异,并将盘子排除在返回的场景模型之外。
这一例子表明,在一组物体中选择参考的问题,等同于选择对哪些可能的空间关系进行建模的问题。假设存在确定哪些关系在建模场景时相关的标准,也不能期望得到的拓扑结构是星形的,因此可能无法找到一个能覆盖该拓扑结构的ISM模型。随着场景类别中物体数量的增加,星形拓扑结构在所有可能的拓扑结构中所占的比例极小。例如,当场景类别包含3个物体时,只有1/4的拓扑结构不能被ISM覆盖;而当包含6个物体时,这一比例降至6/26704。
为了解决这个问题,我们将关系拓扑结构划分为星形子拓扑结构,每个子拓扑结构可以由一个单独的ISM表示。将这些ISM相互连接,就得到了整个关系拓扑结构的复合模型。这为场景类别的新型树形表示奠定了基础,该表示由相互关联的ISM组成。
2. 关系拓扑选择的概念概述
当有场景类别的演示数据时,需要从所有可用的连接拓扑中选择一个来学习场景分类器。忽略某些关系可能会导致识别错误,一种直接的解决方法是基于一组物体上所有可定义的空间关系构建分类器,这会得到一个对应于完全图的关系拓扑。从这种完全拓扑推导出来的分层场景分类器可用于识别场景模型。
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



