4、视觉显著性评估：基准与指标详解

人间计算器

于 2025-10-21 09:08:26 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：视觉显著性与机器学习文章标签：视觉显著性基准数据集评估指标

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/154556428

视觉显著性与机器学习专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

视觉显著性评估：基准与指标详解

在视觉研究领域，为了评估视觉显著性模型的性能，需要合适的基准数据集和评估指标。下面将详细介绍相关的图像和视频基准数据集，以及常用的评估指标。

基准数据集

基准数据集是评估视觉显著性模型的基础，主要分为图像基准和视频基准。

图像基准

有许多研究者构建了不同的图像基准数据集。例如，Huang等人在2009年提出了一个包含993张图像的协作基准，通过从交互式游戏中收集和平均大量矩形注释，能够在每张图像中稳健地标记多个显著对象。Cerf等人在2009年收集了8名受试者在180张彩色户外和室内图像上进行自由观看任务时的注视数据，这些图像包含多种不同类型的面部，并且还要求观察者对每张图像的有趣程度进行评分。

视频基准

除了图像基准，一些研究通过记录视频中的注视点来验证时间信息的影响。其中，最流行且公开可用的两个视频基准是ORIG和MTV。
- ORIG基准 ：由Itti在2004年提出，包含50个视频片段，共超过46,000个视频帧，总时长25分钟。这些视频包含“户外白天和夜晚”“人群”“电视新闻”“体育”“广告”“视频游戏”和“测试刺激”等场景。使用240HZ的ISCAN RK - 464眼动仪记录了8名受试者（5男3女，年龄23 - 32岁）观看这些片段时的眼动轨迹（每个片段4 - 6名受试者）。从代表性视频帧和注视密度图可以看出，每个视频帧中的注视点非常稀疏。
- MTV基准 ：基于ORIG数据集构建，用于区分人类视觉系统中自下而上和自上而下因素的影响。将ORIG基准中的视频剪成1 - 3秒的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。