视觉显著性评估:基准与指标详解
在视觉研究领域,为了评估视觉显著性模型的性能,需要合适的基准数据集和评估指标。下面将详细介绍相关的图像和视频基准数据集,以及常用的评估指标。
基准数据集
基准数据集是评估视觉显著性模型的基础,主要分为图像基准和视频基准。
图像基准
有许多研究者构建了不同的图像基准数据集。例如,Huang等人在2009年提出了一个包含993张图像的协作基准,通过从交互式游戏中收集和平均大量矩形注释,能够在每张图像中稳健地标记多个显著对象。Cerf等人在2009年收集了8名受试者在180张彩色户外和室内图像上进行自由观看任务时的注视数据,这些图像包含多种不同类型的面部,并且还要求观察者对每张图像的有趣程度进行评分。
视频基准
除了图像基准,一些研究通过记录视频中的注视点来验证时间信息的影响。其中,最流行且公开可用的两个视频基准是ORIG和MTV。
- ORIG基准 :由Itti在2004年提出,包含50个视频片段,共超过46,000个视频帧,总时长25分钟。这些视频包含“户外白天和夜晚”“人群”“电视新闻”“体育”“广告”“视频游戏”和“测试刺激”等场景。使用240HZ的ISCAN RK - 464眼动仪记录了8名受试者(5男3女,年龄23 - 32岁)观看这些片段时的眼动轨迹(每个片段4 - 6名受试者)。从代表性视频帧和注视密度图可以看出,每个视频帧中的注视点非常稀疏。
- MTV基准 :基于ORIG数据集构建,用于区分人类视觉系统中自下而上和自上而下因素的影响。将ORIG基准中的视频剪成1 - 3秒的
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



