视觉记忆:超越即时视觉感知
1. 视觉记忆例程概述
日常涉及视觉的任务,如驾驶、烹饪等,可按层次分解为多个低层次子任务或例程,这些例程在多个任务中共享。许多例程涉及视觉记忆,因为需要有关不再存在或已改变的视觉对象或场景的信息。
以泡一杯咖啡为例:
1. 首先,需要在桌面上的几个杯子中找到自己的杯子,这需要视觉搜索例程。在此之前,要回忆起自己杯子的样子。
2. 找到杯子并加入一包速溶咖啡粉后,往杯子里倒热水。此时需要监控水位,并与记忆中通常添加的水量进行比较,以达到喜欢的咖啡浓度。
3. 端着热咖啡走回办公桌时,要不断扫视周围,防止咖啡洒出。
这些视觉记忆例程本身又可由其他共享的低层次例程组成,例如视觉搜索和监控首先需要回忆目标视觉对象或视觉条件,然后需要视觉比较例程将当前视觉感知与目标进行比较。视觉搜索和扫描都涉及注意力转移,而在注意力转移之前,还需要进行眼跳规划,以确定下一个注意力和眼跳的方向。
许多例程是潜意识和隐式的,无需刻意思考,很多情况下可自动执行。
1.1 眼跳规划
视觉记忆的一个作用是表征当前视觉场景,为规划下一个动作(或一系列动作)提供基础,包括眼跳和其他运动动作。眼跳规划这一视觉例程也被其他高层次例程(如视觉搜索)使用。
有证据表明,人们能维持周围环境相对准确的 3D 空间表征,并以此为基础规划眼跳和其他动作。实验显示,对于当前视野之外的位置,视觉记忆中的信息对眼跳规划很重要。即使记忆信息与当前视觉信息冲突,受试者仍会基于记忆信息规划眼跳。此外,早期视觉皮层受损导致视野盲区的患者,也能基于视觉记忆准确地向盲区进行眼跳。
1.2 视觉比较
视觉比较是最常见的视觉记忆例程之一,即把当前视觉感知的一部分与视觉记忆的一部分进行比较。在现实世界的任务中,几乎时刻都需要进行这样的比较操作,因为许多其他视觉(和一般认知)例程都需要具备比较能力。
视觉比较操作可用于比较在时间、空间或感知中断(如眨眼、遮挡、眼跳)情况下分离的信息。例如,在视觉搜索中,必须在记忆中维持目标的表征,当依次关注不同对象时,将目标表征与当前对象的表征进行比较。此外,下一个搜索位置会偏向于与目标匹配的对象。
1.3 建立眼跳对应关系
与视觉比较例程相关的是建立眼跳对应关系,即比较预期的眼跳目标与眼跳后的视觉输入,以验证眼跳是否正确执行。尽管眼跳相对准确,但即使在最简单的实验室条件下,平均眼跳误差也达到眼跳距离的 10%。因此,需要建立眼跳对应关系来验证眼跳并可能进行校正。有证据表明,视觉短期记忆(VSTM)可用于此目的,即记住目标的视觉属性,以便在多个可能的干扰项中向正确目标进行校正性眼跳。
即使眼跳目标在眼跳前原本处于周边视野,只要之前曾注视过这些目标,受试者就能定位并向其进行眼跳,这表明眼跳对应关系不仅可以使用眼跳前的视觉信息,还可以使用更久远的视觉记忆信息。
1.4 搜索
视觉搜索是人类最常见的视觉任务之一。视觉记忆对视觉搜索有重要影响。首先,对场景的总体布局或目标的具体位置的先验知识能有效引导视觉搜索。反复搜索同一场景有助于后续搜索,即使只搜索一次也会有促进作用。熟悉场景的一般类别也能引导视觉搜索,即使对特定场景没有具体了解。
除了减少搜索时间,记忆对视觉搜索的另一个影响是“返回抑制”现象,即受试者倾向于避免重新访问之前搜索过的位置,这可看作是一种利用记忆来加快搜索速度的策略。
1.5 计数
计数是一个与视觉目标搜索有相似之处的视觉例程,看似简单,实则是一个复杂的高层次例程,依赖于其他例程。一种计数方式可看作是重复的视觉搜索,例如计算房间里椅子的数量,需要反复搜索椅子。但还需跟踪已计数的项目,并规划下一次眼跳到未计数的项目上,常见策略是按大致的空间顺序(如从左到右)进行。另一种计数方式则忽略具体的视觉外观,不涉及搜索目标,但仍需要视觉记忆来跟踪已计数的内容并规划下一次眼跳。
以下是一个简单的表格总结上述视觉记忆例程:
| 例程名称 | 主要作用 |
| ---- | ---- |
| 眼跳规划 | 为动作规划提供视觉场景表征,用于眼跳和其他运动动作规划 |
| 视觉比较 | 比较当前视觉感知与视觉记忆,支持多种视觉和认知例程 |
| 建立眼跳对应关系 | 验证眼跳正确性,可能进行校正 |
| 搜索 | 利用先验知识引导搜索,减少搜索时间,存在返回抑制现象 |
| 计数 | 跟踪已计数项目,规划眼跳,实现计数功能 |
下面是一个 mermaid 格式流程图,展示这些例程之间的关系:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(日常视觉任务):::process --> B(眼跳规划):::process
A --> C(视觉比较):::process
A --> D(建立眼跳对应关系):::process
A --> E(搜索):::process
A --> F(计数):::process
B --> C
C --> D
E --> C
F --> B
F --> C
2. 视觉记忆研究现状与未来展望
2.1 视觉记忆研究现状
目前,视觉和记忆是神经科学和心理学中较大的研究主题,但对它们之间交集和相互作用的研究在规模和范围上相对不足。在视觉研究中,视觉记忆子领域被视为与对象识别或视觉运动类似的子领域;在记忆研究中情况也类似。在计算机视觉领域,视觉记忆研究仍处于起步阶段,能否获得主流认可还有待观察。
2.2 开放研究问题
心理学方面,在视觉记忆的功能方面研究较少,存在很多机会。例如:
- 当从单个事件构建场景图式时,哪些内容会被纳入图式,哪些会被排除,原因是什么?
- 如果给定先前注视的精确历史,能否预测个体受试者的活跃场景表征包含什么?
- 在视觉短期记忆(VSTM)的内容中,哪些会成为视觉长期记忆(VLTM)的一部分,原因是什么?
- 给定特定的回忆线索,哪些相关事件会从视觉长期记忆中被检索出来,原因是什么?
神经科学方面,自上而下的反馈在视觉中起着重要但尚不清楚的作用。与记忆相关的自上而下处理可能在其中扮演非常重要的角色。例如,在对象识别任务中,即使表面上与记忆没有明显联系,也可能会自动从记忆中检索视觉上相似的对象,并利用先前事件的信息来帮助对象识别。
对于本章提到的各种类型的记忆,还存在以下问题:
- 它们是如何形成的,具体的表征是什么,又是如何计算的?
- 在长期记忆形成过程中,VSTM 的内容如何“转移”到 VLTM,反之在回忆时又是如何进行的?
- 如何准确表示来自多次注视的在线场景表征,以及该表征是如何构建的?
- 在神经层面,是否存在大脑相关区域,如果存在,它们是形成一个独特的大脑区域或网络,还是只是重复使用与即时视觉感知相同的许多神经元?
此外,像前面提到的视觉记忆例程的分层分类法可以更详细地展开。目前的图示只是一个示例,可能还有更多的例程和子例程有待纳入,它们的功能关系也需要更详细地阐述。
对于这些例程的形成也存在疑问:它们是天生的,还是通过经验习得的,或者答案取决于具体的例程?对于通过学习获得的例程,学习是如何发生的,特别是在没有明确教学的情况下?对于新任务,大脑如何确定使用哪些现有的子例程,以什么顺序使用,以及可能需要哪些新的子例程?
对于每个例程,还有更具体的开放性问题。以视觉搜索为例,虽然已经进行了大量研究以生成反应时间曲线来理解不同类型刺激的视觉搜索效率,但很多研究使用的是人工刺激,结果是对许多受试者和多次试验进行汇总的。那么,视觉搜索在现实世界场景中是如何运作的?能否建立模型来预测特定受试者在个别试验中的注视点和搜索时间?
2.3 可能的应用
近年来,监控和车载摄像头的数量大幅增加。目前,这些主要用作记录设备,仅在需要时(如交通事故或入侵发生后)才对其内容进行分析。然而,其潜力远不止于此,例如可以自动将一系列短事件拼接在一起,以理解更长的情节,比如检测在计划抢劫前多次“踩点”银行的潜在抢劫者。
人们的生活越来越多地被图像和视频记录下来,并进行存档或在线分享。但这些数据中的大部分从未被计算机以有意义的方式分析或使用。这些图像和视频可以挖掘出与多年来饮食习惯、活动和时尚选择变化相关的信息,也可以作为一种外部自传式记忆,例如回忆自己 21 岁生日是如何庆祝的。随着大型消费公司推出各种“智能眼镜”,“生活记录”(即通过图像和视频广泛记录自己的生活)的趋势可能会显著增加,这些大量的生活记录数据自然适用于快速准确地检索视觉记忆的应用。
另一个刚刚兴起的应用趋势是类人机器人与人类同事或伙伴的持续交互。为了与人类进行有效交互,这些机器人必须能够跟踪先前的交互,以便了解个体人类的习惯和偏好。例如,识别一个人只是第一步,能够快速检索关于先前交互的有意义信息对于几乎所有类型的人类交互也至关重要。
2.4 最终展望
未来,将有更多关于视觉和记忆相互作用的研究。随着计算机视觉系统达到商业上可行的性能水平,这些系统将不可避免地用于处理目前已经存在的大量视觉信息。因此,存储、索引和检索这些大量信息的方法(即记忆)将变得越来越重要。
在神经科学中,一组重要但尚未解决的问题涉及自上而下的处理。参与记忆的内侧颞叶系统接收来自视觉系统的输入,并向其反馈。因此,记忆和视觉之间的相互作用是研究自上而下处理的自然候选对象。
在心理学中,随着我们在实验室条件下使用简单人工刺激对视觉和记忆有了越来越多的了解,注意力将不可避免地转向更现实条件下的更现实刺激,在这些条件下,视觉和记忆自然地交织在一起。
下面是一个表格总结未来研究和应用的方向:
| 领域 | 研究方向 | 应用方向 |
| ---- | ---- | ---- |
| 心理学 | 视觉记忆功能、例程形成机制、现实场景视觉搜索建模等 | 无 |
| 神经科学 | 记忆形成、表征、计算,自上而下处理等 | 无 |
| 计算机视觉 | 视觉记忆例程分层分类完善 | 监控分析、生活记录数据挖掘、类人机器人交互 |
以下是一个 mermaid 格式流程图,展示未来研究和应用的关联:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(心理学研究):::process --> B(未来研究发展):::process
C(神经科学研究):::process --> B
D(计算机视觉研究):::process --> B
B --> E(监控分析应用):::process
B --> F(生活记录数据挖掘应用):::process
B --> G(类人机器人交互应用):::process
超级会员免费看

被折叠的 条评论
为什么被折叠?



