用于形状模式的分层字典学习
1. 引言
形状信息对于图像理解至关重要。人类仅凭借形状信息,就能迅速且准确地从漫画、黑白卡通图像或几笔手绘的草图中识别出物体。在图像理解中,传统的稀疏编码方法虽能将图像块分解为多个类似Gabor的形状模式的线性组合,但存在两个明显的缺点:
- 难以学习比Gabor滤波器更复杂的形状模式。
- “扁平”字典忽略了元素之间的关系。
形状模式并非相互独立。同一类别的物体形状轮廓可能相似但不完全相同,有些形状模式虽然不同但具有相同的语义,如沙发和椅子。因此,形状应该有自己的“形状网络”,以分层字典的形式组织,包含各种有意义的常见形状模式以及形状之间的依赖关系,这将有助于物体识别和图像理解。
以往的大多数稀疏编码方法只能学习类似Gabor模式的“扁平”字典,部分方法虽能学习结构化字典,但只能学习像素级模式,无法学习复杂的形状模式。SISCHMAX方法可以从给定图像中学习复杂的形状模式,但不能学习分层字典。
为了解决这些问题,我们提出了分层字典形状分解(HiDiShape)方法,用于学习图像形状模式的分层字典。该方法结合了移位不变稀疏编码和HMAX模型,将图像分解为常见的形状模式,并引入了稀疏空间和分层正则化(SSHR)来组织这些形状模式,构建树形结构的字典。
2. 学习图像形状模式
常见的形状组件可能出现在图像的任何位置,并且具有局部位置变化。全局和局部位置变化增加了学习复杂形状轮廓的难度。如果仅从像素级图像中随机采样补丁,字典将变成各种位置的Gabor滤波器,只能学习线条,而无法学习具有有意义的角或循环结构的形状轮廓。
我们采用SISCHMAX方法来学习“
分层字典学习用于形状模式
超级会员免费看
订阅专栏 解锁全文
682

被折叠的 条评论
为什么被折叠?



