图像理解中的场景标注与约束传播技术
1. 图像特征提取与随机森林应用
在图像理解中,首先会进行特征提取。将某点深度同时与 (x + u) 和 (x + v) 处的深度进行比较,其中 (u) 和 (v) 是邻域深度比较的参数。归一化因子 (1/ dI(x)) 使得特征具有深度不变性,进而具有 3D 世界坐标不变性。这些特征与基于像素的类别信息一起用于训练随机森林。在图像分析阶段,随机森林会为每个图像像素分配 32 个标签中的一个,其中包括 31 个身体部位类别和背景。
为了获取骨骼关节的 3D 位置信息,需要对每个像素的身体部位标签信息进行整合,例如找到具有相同标签的所有像素的 3D 质心。不过,这种方法对噪声较为敏感,Kinect 中采用了均值漂移高斯核加权模式查找方法。随机森林在医学成像中也有应用,例如从 3D CT 或 MR 图像数据中对解剖结构进行全身分割,以及自动检测单个结构的存在与否。
2. 场景标注概述
上下文在图像理解中起着重要作用。场景标注主要考虑区域和对象的语义标注。假设图像已被分割成对应于对象或其他实体的区域,对象及其相互关系可以用区域邻接图和/或语义网络来描述。
对象属性通过一元关系描述,对象之间的相互关系通过二元(或 n 元)关系描述。场景标注的目的是为每个图像对象分配一个标签(含义),以实现合适的图像解释。标注结果应与可用的场景知识相符,并且要保持一致性。如果有多种解释,应选择最可能的解释。
场景标注有两种主要方法:
- 离散标注 :在最终标注中,每个对象只能分配一个标签,重点是在整个图像上实现一致的标注。
- 概率
超级会员免费看
订阅专栏 解锁全文
2264

被折叠的 条评论
为什么被折叠?



