31、视觉注意力与认知建模的原则

最新推荐文章于 2025-11-15 11:00:32 发布

火锅底料102

最新推荐文章于 2025-11-15 11:00:32 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：视觉的奥秘：从脑到AI 文章标签：视觉注意力认知建模计算负荷

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/154904608

视觉的奥秘：从脑到AI 专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

视觉注意力与认知建模的原则

1. 引言

探索人类注意力和认知行为背后的生物学和计算原理是一项艰巨且界定模糊的任务，途中布满了过去失败的尝试和死胡同。但由于理解这些原理的需求以及其潜在影响，我们依旧满怀希望，继续进行探索。

在探讨建模原则之前，我们需要明确“原则”的定义。原则描述了事物的基本性质、普遍属性以及事物之间的关系，能够解释各种现象的原因和方式，并且可以通过科学方法进行验证。原则可以用简洁的文字表述、数学公式、图形化的过程和通信描述，甚至是计算语言来表达。它在相同条件下始终适用，并暗示其元素之间存在因果关系。原则需要通过归纳推理的过程得到确认和广泛认可。

而建模哲学，例如希望开发具有生物学真实性的模型，并不属于原则，因为它对感兴趣的领域（如生物学）没有做出可证伪的预测。此外，还有一种既不是原则也不是哲学的陈述，即要求，它规定了建模活动必须达到的规范。

在视觉注意力和认知建模领域，有人试图寻找一个统一的单一原则，例如Friston的自由能原则，声称可以统一行动、感知和学习。另一种方法是设置多目标优化问题（MOOP），但目前我们对人类大脑功能的理解还难以满足这种方法的要求。

Tsotsos的研究表明，视觉处理的计算复杂度使得处理时间和输入大小之间的关系呈指数性质，不存在最优解。这是因为人类感知面临许多计算上难以处理的子问题，并且问题具有多变量性质。同时优化多个相互关联的变量通常只能通过定义足够的解决方案标准来处理，实际中追求的是全局满意解。因此，在注意力和认知建模中，寻找单一统一原则可能不是正确的途径，我们需要采用不同的方法。

我们将通过以下步骤来开发原则：首先描述注意力处理的元素，这是建模者的目标，即发现能够在特定任务中解释所有元素的整体计算架构；接着讨论目前用于实现注意力架构的一些原则；然后探索适用于认知建模的原则，这些原则与注意力建模的原则应有一定重叠；最后引入生存需求作为替代最优性的总体原则，因为在竞争解决方案中仍需要一个选择标准。

2. 注意力的生物学元素

在定义建模原则之前，了解我们要建模的内容至关重要。然而，对于视觉注意力的定义，目前存在诸多不同观点。过去几十年中，关于视觉注意力的理论、模型和实验论文众多，让人难以全面了解。

经典观点认为视觉注意力是一个两阶段过程，即预注意阶段和注意阶段。而Tsotsos则认为注意力是一组包含抑制、选择和限制等多种机制的集合。尽管有许多综述文章，但它们对于明确注意力的具体内容帮助不大。

为了使本文更具体，我们列出了目前公认的注意力处理的特征：
1. 警报：处理、识别优先级信号并将注意力转移到这些信号的能力。
2. 注意力足迹 ：用光学隐喻描述注意力在图像空间中的“足迹”，主要包括聚光灯、变焦镜头、梯度和抑制性环绕等。
3. 绑定：正确组合视觉特征以提供物体统一表示的过程。
4. 隐蔽注意 ：在不移动眼睛的情况下关注视野中的刺激。
5. 解除注意 ：生成释放注意力并准备转移注意力的信号。
6. 内源性影响 ：用于引导注意力的内部生成信号，包括领域知识或任务指令。
7. 参与注意 ：无论是隐蔽还是公开地注视刺激所需的动作。
8. 执行控制 ：将各个元素协调成一个连贯单元，以正确响应任务和环境需求的系统。
9. 外源性影响 ：由外部刺激引起，以反射方式控制注视方向，常见的是突然出现的刺激的影响。
10. 返回抑制 ：避免将注意力返回到先前关注的位置或对象的倾向。
11. 神经调制 ：注意力改变被关注刺激的神经元基线放电率和放电模式。
12. 公开注意 ：也称为定向，即调整身体、头部和眼睛以注视三维世界中的刺激的动作，公开注视轨迹可能受隐蔽注视的影响。
13. 后注意 ：在注意力转移后创建被关注项目的持久表示的过程。
14. 预注意特征 ：从刺激模式中提取视觉特征，可能受任务需求的影响。
15. 启动：任务指令或世界知识使视觉系统为输入做好准备的一般过程，提示是启动的一个实例，正确的提示可以加快感知速度。有意忽略也与启动相关，称为负启动，即忽略一个刺激后，短期内对该刺激的处理会受到损害。
16. 识别：在注意力的帮助下解释被关注刺激的过程。
17. 显著性/醒目性 ：特定位置的刺激与其周围环境的整体对比度。
18. 搜索：从杂乱场景中的众多可能位置和特征中选择用于检测或其他任务的候选刺激的过程。
19. 选择：从刺激中选择一个元素而忽略其他元素的过程，可以是对位置、特征、对象、时间或行为响应的选择，甚至是这些的组合。
20. 转移注意力 ：将注意力从当前位置转移到新位置的动作。
21. 时间进程 ：注意力的效果需要时间才能显现，这在神经元放电率模式和行为实验中表现为延迟和循环模式。
22. 更新注视历史 ：系统跟踪已看到和处理的内容，并维护和更新该表示，以参与决定何时注视何处的过程。

这些元素都有丰富的实验证据支持，它们共同构成了视觉注意力最终理论或模型的约束条件。目前，还没有一个模型能够涵盖注意力的所有观察特征。

其中，Tsotsos和Kruijne提出的STAR模型试图将注意力的所有元素整合到一个注意力执行和任务驱动的控制结构中。该模型基于选择性调谐模型，并扩展到包括注意力执行、工作记忆、任务指导组件等。此外，Beuth和Hamker的工作也是一个很好的综合模型示例，他们专注于解释多个大脑区域的单细胞记录，并展示了参与空间和特征基础的偏向竞争、对比度响应函数调制、神经元调谐曲线调制和环绕抑制调制的注意力计算电路。这些综合努力将在未来对我们理解注意力处理发挥越来越重要的作用。

3. 注意力建模原则

现在我们对需要建模的注意力方面有了初步描述，可以探讨注意力的原则了。大量关于注意力的文献显示，其最持久的特征是容量限制或瓶颈，即大脑接收到的信息过多，系统无法处理，因此需要注意力来应对这种情况。

基于此，我们提出注意力建模的第一个原则：注意力的目标是减少计算负荷。注意力是根据当前任务、目标和输入对处理进行动态调整，这种调整在某些方面是自动的，在某些方面是有意的。也就是说，当主体的需求或环境特征发生变化时，系统会调整资源以满足这些需求。

动态调整的机制主要分为三类，这些机制大多与前面列出的注意力元素直接相关，并且每个机制都有其所需的参数。例如，感兴趣区域可以通过视觉刺激的视网膜拓扑表示中的位置和范围来指定；外源性提示可以用一组连续的视网膜拓扑位置和特征来表示；基于位置的返回抑制可以通过视网膜拓扑位置、空间范围和衰减率来指定。

增加信噪比（SNR）和减少搜索空间这两类机制可以直接降低待解决问题的维度。但减少搜索空间机制的目标不是降低输入数据的维度，而是相对于当前任务及其组合影响来降低数据的维度。这与Bellman的维度灾难不同，维度灾难是指在高维空间中分析和组织数据时出现的各种问题，如数据稀疏、难以组织和搜索等。然而，这些问题在大脑的视觉信息处理中可能并不适用，原因至少有三点：输入表示由视网膜的大小和处理性质决定，而不是由视觉世界的维度或我们的知识决定；处理不需要完全真实或最优，只需满足当前任务即可；虽然大脑的视觉信息处理也涉及高维数据，但与传统的高维数据处理问题存在差异。

下面是注意力动态调整机制的分类流程图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(动态调整机制):::process --> B(增加信噪比（SNR）):::process
    A --> C(减少搜索空间):::process
    A --> D(其他机制):::process
    B --> B1(相关参数):::process
    C --> C1(相关参数):::process
    D --> D1(相关参数):::process

这些原则和机制为注意力建模提供了基础，帮助我们更好地理解和模拟人类的注意力和认知行为。

4. 认知建模原则

认知建模的原则与注意力建模原则有一定的重叠，因为注意力和认知在人类的信息处理过程中是紧密相连的。认知涉及到对信息的感知、理解、存储和应用等多个方面，而注意力则在这些过程中起到了筛选和聚焦的作用。

在认知建模中，一个重要的原则是信息的有效利用。这意味着模型需要能够根据任务的需求，从大量的输入信息中提取有用的部分，并进行高效的处理和存储。与注意力建模中减少计算负荷的原则相呼应，认知模型也需要避免处理过多的无关信息，以提高效率。

另一个原则是适应性和灵活性。人类的认知系统能够根据环境的变化和任务的不同，灵活地调整自己的处理策略。因此，认知模型也应该具备这种能力，能够在不同的条件下实现最优的性能。例如，在面对复杂的问题时，模型可以采用逐步分解的策略，将大问题转化为多个小问题进行处理；而在面对简单的任务时，则可以采用更直接的处理方式。

此外，认知建模还需要考虑到知识的表示和利用。人类的认知过程是基于已有的知识和经验进行的，模型也应该能够有效地表示和利用知识。这可以通过建立知识图谱、使用机器学习算法等方式来实现。知识的表示和利用不仅可以提高模型的性能，还可以使模型具有更强的解释性和可理解性。

5. 生存需求作为选择标准

在注意力和认知建模中，当面临多个竞争的解决方案时，需要一个选择标准。我们引入生存需求作为替代最优性的总体原则。

生存需求是指模型需要能够在各种环境条件下保证主体的生存和发展。这意味着模型的决策和行为应该有利于主体获取资源、避免危险、完成任务等。与传统的最优性原则不同，生存需求更注重实际的可行性和适应性，而不是追求理论上的最优解。

例如，在一个模拟生物觅食的模型中，传统的最优性原则可能会要求生物找到能量回报最高的食物源，但在实际环境中，这种食物源可能很难找到或者存在很大的风险。而基于生存需求的原则，生物可能会选择一个相对容易获取且风险较低的食物源，以保证自己的生存。

生存需求作为选择标准的优势在于它更符合现实世界的复杂性和不确定性。在实际应用中，我们很难找到一个绝对最优的解决方案，而生存需求可以帮助我们在多个可行的方案中选择一个最适合当前情况的方案。

以下是基于生存需求选择解决方案的步骤列表：
1. 评估每个解决方案对主体生存和发展的影响，包括资源获取、危险避免、任务完成等方面。
2. 考虑每个解决方案的可行性和适应性，包括实施的难度、所需的资源等。
3. 根据评估结果，选择对主体生存和发展最有利的解决方案。

6. 对神经科学开放性问题的启示

我们所提出的这些原则、哲学和要求，对于神经科学中的开放性问题可能会有一定的促进作用。

在神经科学中，有许多问题尚未得到完全解决，例如大脑如何处理复杂的信息、注意力和认知在神经层面是如何实现的等。我们的原则可以为这些问题的研究提供新的思路和方向。

例如，减少计算负荷的原则可以帮助我们理解大脑如何在有限的资源下处理大量的信息。大脑可能通过类似于注意力的机制，对信息进行筛选和聚焦，以减少不必要的计算。而生存需求作为选择标准，则可以解释大脑在面对多个选择时是如何做出决策的，即选择那些最有利于生存和发展的方案。

此外，我们对注意力和认知元素的描述，也可以为神经科学的实验设计提供参考。通过研究这些元素在神经层面的实现机制，我们可以更深入地了解大脑的工作原理。

以下是原则对神经科学开放性问题促进作用的示意图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(建模原则):::process --> B(减少计算负荷):::process
    A --> C(生存需求作为选择标准):::process
    A --> D(注意力和认知元素描述):::process
    B --> E(理解大脑信息处理):::process
    C --> F(解释大脑决策机制):::process
    D --> G(指导神经科学实验设计):::process

综上所述，通过对注意力和认知建模原则的探讨，我们不仅为建模提供了基础，还为神经科学的研究提供了新的视角和方法。未来，我们可以进一步深入研究这些原则，以更好地理解人类的注意力和认知行为，以及大脑的工作原理。