视觉注意机制
视觉显著性(Visual Saliency Detection )是指对于真实世界中的场景,人们会自动的识别出感兴趣区域(region of interesting),并对感兴趣的区域进行处理忽略掉不感兴趣的区域。比较典型的视觉显著性的标注为下图所示
人类的视觉注意机制有两个策略:自底向上、自顶向下
自底向上(Bottom-up method):自底向上的方法是由图像本质特征引起的视觉注意,它是由底层感知数据驱动的。譬如,颜色,亮度,方向等一系列图像特征。由图像底层数据可知,不同区域内具有很强的特征差异性,通过判断目标区域和它周围像素的差异,进而计算图像区域的显著性。
自顶向下(Top-down method):自顶向下的方法是基于任务驱动性的注意力显著性机制,它是由任务经验来驱动视觉注意的,通过知识来预期当前图像的目标显著性的区域。例如,在景区,你同学戴了一顶黑色帽子,你在寻找你同学时候,会首先注意黑色帽子这个显著特征。
视觉显著性预测和检测
视觉显著性预测即预测人类的视觉凝视点和眼动;显著性物体检测是基于视觉显著性在图像大小调整上的应用而得来的概念。
不同点:
1)两者定义的标注集不同。视觉显著性预测只需预测出人类在3~5秒的凝视中所关注的点;显著性物体检测的目标是检测出最显著的物体。其中显著性物体作为一个整体被检测出来,需要精确到像素级别;理论上,在显著性预测模型上成功的方法在显著性物体检测的标准中会失败。
2)两者的评估标准不同。视觉显著性预测的评估方法需要评估显著性图的相似程度,而显著性物体检测方法需要基于显著性物体区域中每个像素点的命中率来计算准确率和回召率。
视觉显著性预测和检测示意图