28、基于关系核的层次图像理解框架

基于关系核的层次图像理解框架

1. 引言

通过识别图像中的组成对象来理解图像是一项具有挑战性的任务。原则上,可以使用计算机视觉技术,利用低到中级的特征,如几何基元、图像块或不变特征来解决这个问题。然而,这些特征对于处理更复杂模式的高级任务来说是不够的。在这种情况下,用基于视觉图像部分的结构层次(或类似图)的表示来描述视觉场景更为直观,它们反映了场景自然地组成对象和对象的部分。

关系表示在早期的句法和结构模式识别工作中很流行,其关键优势在于能够通过符号关系利用图像中的上下文知识,并且可以将空间信息从精确位置中抽象出来,使其独立于度量细节。但由于其纯符号性质,在当代计算机视觉方法中很少使用。不过,将统计学习原则与关系表示相结合的最新进展和成功,促使我们重新研究这种表示的应用。

我们采用 kLog 这一用于基于核学习的通用关系语言,来解决层次图像理解问题。kLog 是一种新的统计关系学习框架,它结合了统计思想来处理不确定性,同时融入了领域的关系表示。图像通过自动提取的语义部分及其关系来描述,可视为关系数据库或(超)图。kLog 的新颖之处在于,它能从现有的视觉特征出发,以一种有原则且自然的方式考虑关系上下文特征,其声明式方法还能灵活且可解释地考虑图像中的外观和空间信息。最终,kLog 将关系数据库转换为基于图的表示,并使用图核来提取特征空间。

本文的目标是通过识别不同层次的对象来理解图像。基础层依赖于局部兴趣点及其描述符,后续层由对象组成,更高层由对象的配置组成。我们专注于街景图像中结构的识别,但该方法也可用于其他领域。我们从一组手动标记的对象类别示例(如房屋、窗户和门)中学习识别对象,每个房屋都标注了其组成窗户和门的位置和形状。该方法在 60 张街景图像的数据集上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值