视觉显著性计算:去除标签歧义与提升性能
1. 不同视频类型的显著性计算表现
在视觉显著性计算中,不同视频类型的表现差异明显。“视频游戏”类型的场景通常具有明显的显著目标,这些目标容易与干扰项区分开来。玩家在游戏过程中会调整场景,使目标更突出,而且该类型场景相对简单,有助于显著性计算。因此,大多数方法在“视频游戏”类型中表现最佳。
相反,“电视新闻”和“体育”类型的场景较为复杂。以“新闻”场景为例,可能包含主播、字幕、滚动文本、标志等多种元素,每个元素都可能是显著目标。在这种内容丰富的场景中,仅依靠视觉特征很难区分目标和干扰项,有时需要借助语义线索。将各种语义线索(如人脸和相机运动)的影响纳入视觉显著性计算,是一个具有挑战性的研究方向。
2. 学习排序方法的优势与局限
提出了一种用于视觉显著性计算的学习排序方法。该方法基于成对学习排序框架,能有效学习区分目标和干扰项的视觉特征。特定聚类模型可以在不同场景中突出目标并抑制干扰项。此外,采用多任务学习框架同时推断多个视觉显著性模型,通过模型间的信息共享,显著提高了每个模型的性能。与一些先进的自下而上、自上而下和学习排序方法相比,该方法表现出色。
然而,这种方法存在一个缺点,即假设所有训练样本都被准确且充分地标记。但实际上,由于视频帧的观看时间较短,只能收集到有限的注视点,训练样本的标记是稀疏的,将未标记的样本都视为负样本并不合适。
3. 训练视觉显著性模型的标签歧义问题
许多方法通过手动标记或眼动追踪设备获取用户数据,学习“特征 - 显著性”映射模型。这些方法将图像或视频帧划分为多个块,并为每个块分配标签以指示其是否显著。但在现有基准测试中,由于用户
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



