弱标注图像数据集通过密集对应关系的联合推理
1. 引言
自然图像包含许多重复模式,如角点、边界和纹理,以及重复的部分、物体和场景。这些重复不仅出现在图像内部,还存在于不同图像之间。例如,使用文本短语查询图像搜索引擎时,我们通常会得到许多包含感兴趣对象或场景的视觉相似图像。
计算机视觉中有两种主要方法来建模这些重复模式:
- 参数化方法 :明确学习视觉模式及其变化的字典。这种参数化模型已成功用于纹理合成、图像去噪和对象识别。
- 非参数化方法 :尝试为模式构建图,使每个模式与其相似模式(即“邻居”)相连。信息可以方便地从最近邻居传播或转移到查询模式,而无需明确建模模式。这种方法已广泛用于超分辨率、纹理合成和图像理解,并且尽管相对简单,但通常比基于参数模型的方法表现更好。
最近用于在不同场景图像之间建立密集对应关系的技术,如SIFT流和PatchMatch,促进了非参数信息传输系统的设计和实现,其中信息可以是标签、运动、深度和像素颜色。信息传输的思想是,对于查询图像x,系统首先在图像数据集中找到一组与x视觉相似的图像xi,每个xi都与一些已知信息yi相关联。在x和每个xi之间建立密集对应关系后,每个yi根据计算的对应关系被扭曲到x,通常通过整合多个扭曲的yi来获得x的y估计。
然而,信息传输方法的主要缺点是它们依赖于大量训练图像的规律性,而这些图像中要传输的信息(如深度、运动、3D)是“干净”且已知的。在大型现代图像数据集中,这些信息获取成本高,且通常有噪声或不可用。此外,在对多个新图像进行分类时,这些方法通常独立处理每个新图像,由于视觉歧义,这往往导致图像间的标注不一
超级会员免费看
订阅专栏 解锁全文
2942

被折叠的 条评论
为什么被折叠?



