32、视觉注意力与认知建模的原则探索

视觉注意力与认知建模的原则探索

1. 视觉问题的本质与解决策略

视觉问题在形式上具有固有的指数性质,但这不一定是大脑所解决的问题。视觉的指数性质源于选择驱动人类行动的视觉实体的组合学。进化不太可能为解决一般问题而发展出足够大的大脑,而是进化出一种对一般问题进行近似处理的大脑,这种近似处理对物种的生存没有不利影响,从而改变了所解决问题的性质。

有几类主要的注意力调节机制,它们在解决视觉问题中发挥着重要作用:
- 提高信噪比(Increase Signal-to-Noise Ratio) :这类机制以不同的方式减少搜索空间。对于相同的输入集,根据任务的不同,数据的不同方面会被视为“信号”和“噪声”。例如著名的雅布斯任务(Yarbus task),受试者对同一张照片被给予不同的问题,会表现出非常不同的扫描路径。经典的降维方法没有做出这种关键区分。
- 优化选择标准(Optimize Selection Criteria) :该类机制主要处理选择的决策过程。它可能涉及从多个选项中选择一个;也可能涉及从多个选项中并行选择几个进行考虑;可能涉及更具概率性的决策而非二元决策;可能更多地抑制不良选择而非选择良好选择;可能涉及探索选项的时间顺序等。最佳选择标准的确定必然依赖于任务。与减少搜索空间类机制不同,优化选择标准类机制提供了实现选择的方式。
- 减少搜索空间(Reduce Search Space) :该类机制涵盖了选择可能发生的多个领域,如空间、时间、世界模型、视角等。

这些注意力调节的主要类别可以作为原则,因为有大量的实验证据支持它们,以及图中的大多数子机制。

2. 认知建模的原则

在人工智能领域,理性行动是一个核心且经过深入研究的概念。理性行动由理性主体执行,在给定主体当前知识、获取新知识的能力以及当前可用的计算和时间资源的情况下,最大化目标的实现。由于资源存在限制,很可能并非所有问题实例都有最优解。在视觉领域,许多作者已经表明视觉中的子问题具有指数级的计算复杂度。因此,需要考虑一些启发式方法,其中之一是关注近似解,即不一定是最优但足以满足当前需求的解。

“满意化”(Satisficing)策略是由赫伯·西蒙(Herb Simon)在1956年提出的,它与最优决策不同,是指在可用的替代方案中进行搜索,直到达到可接受的阈值。满意化可以有多种形式,如果有足够的时间,可以花时间在所有可能的方案中找到可接受的解;如果时间有限,则需要找到在时间限制内的最佳解;如果时间极其紧迫,可能需要几乎反射性的响应。外部任务、情况以及内部动机在确定采用何种近似方法方面起着重要作用。

在认知科学领域,也有许多相关的观点:
- 奥赖利(O’Reilly)的原则 :他为基于生物学的皮质认知计算模型提出了五个原则,包括生物现实性、分布式表示、误差驱动学习、赫布学习以及双向激活传播和抑制竞争。不过,其中生物现实性似乎更应被视为一种建模哲学,而不符合某些工作定义。
- 贾斯特和瓦尔马(Just and Varma)的原则 :他们提出了五个重要原则,如思维是多个大脑区域在大规模皮质网络中协同活动的产物;每个皮质区域可以执行多种认知功能,反之亦然;每个皮质区域的计算资源有限,限制了其活动;大规模皮质网络的拓扑结构在认知过程中动态变化,以适应不同皮质区域的资源限制和当前任务的功能需求;支持协作处理的通信基础设施也受到资源限制,这里被理解为带宽限制。这些原则与注意力和认知建模有一定的重叠。
- 瓦尔马(Varma)的观点 :他在对认知架构的回顾中强调了一些建模概念,如在比较模型时,应优先选择用较少的计算机制解释大量经验规律的模型,即经验覆盖和简约原则。他还提到成功的架构应具有主观和主体间的意义,为计算模型的设计和解释提供结构,并且能对人类信息处理提出引人深思的主张。然而,这些更像是建模的目标或评估模型的标准,而非关于认知行为自然世界的原则。

目前已经开发了大量的认知架构系统,它们在感知和注意力能力方面各有不同。有些系统没有感知能力,有些只接受模拟输入,有些使用声纳或激光而不使用视觉。具有视觉感知组件的系统通常包括对象识别、路径规划和导航等特定任务组件。一些系统还包括眼球运动和感兴趣区域的选择。

近年来,大规模神经元网络模拟成为可能。例如,齐尔伯格(Zylberberg)等人开发了一个大规模神经系统,将注意力体现为一个路由器,能够在感觉刺激和运动表示之间建立精确映射,并能灵活地互连处理器并快速改变配置。爱利亚史密斯(Eliasmith)等人描述了另一个大规模神经模型,能够在多个任务中实现性能的泛化,但未使用注意力机制。大多数主要的提案将视觉系统视为一种被动观察、数据驱动的分类器,这与现代神经生物学所表明的不同。我们寻求建模的注意力和认知架构是一个动态、响应式的过程,观察者在决定看什么、何时看、如何看、为什么看以及如何使用所看到的内容方面起着关键作用,这可以概括为主动感知原则。

3. 生存需求

虽然已经描述了大量的候选原则、哲学和要求,但还缺少一种将它们组合成一个单一系统的方法。人类视觉认知模型的开发依赖于在开发过程中选择哪些实验观察作为约束条件。这些约束条件为在满足原则的潜在解决方案中进行选择提供了一种方式。

可以设想一种类似多目标优化问题的框架。假设能够枚举在注意力和认知任务中起作用的许多不同变量,对于视觉注意力问题,这些变量可以从注意力执行所需的控制信号推导得出。进一步假设能够量化生物体或主体的福祉,这里用生存函数S(t)表示生物体或主体在时间t进行下一个动作后生存的可能性。

如果主体考虑一个特定的动作,该动作会影响其内部变量,那么从这些变量的设置到该动作的生存值存在一个映射,这个映射假设是在主体的生命周期中学习得到的。设τ为使生存测量有效的最大响应时间,这就产生了第一个计算约束:T ≤ τ,其中T表示主体对其情况做出响应之前所经过的时间。

一般来说,给定特定的情况和任务,主体会寻求最大化其生存,即确保其生成的任何响应都能使S的值严格非递减,即∂S/∂t ≥ 0,这是与生存相关的第二个约束。在这个k维空间中搜索合适的变量设置组合可能非常复杂,因此在寻找良好解决方案时,生物体或计算主体可以使用启发式方法,如最后考虑更昂贵的变化、首先考虑小的变化、在没有其他选择时才考虑改变操作特征、假设某些变量子集保持不变以有效降低搜索空间的维度等。

最后,需要一种方法来确定哪些变量重要,哪些不重要,以及对于重要的变量,哪些设置是足够的。可以假设存在一个函数M(),其值可以为T(变量设置足够)、F(变量设置不足)或U(变量无关)。在日常生活中,我们经常应用这种原则,例如在晚宴上伸手拿酒杯,只要能顺利喝到酒而不洒出来,具体的抓握位置和路径并不重要,只需要找到一个足够好的解决方案即可。

相关列表与流程图
  • 注意力调节机制列表
    | 机制类别 | 作用 | 示例 |
    | ---- | ---- | ---- |
    | 提高信噪比 | 以不同方式减少搜索空间,根据任务区分信号和噪声 | 雅布斯任务 |
    | 优化选择标准 | 处理选择的决策过程,方式多样,依赖任务 | 从多个选项中选择的不同方式 |
    | 减少搜索空间 | 涵盖选择可能发生的多个领域 | 空间、时间等领域的选择 |

  • 认知建模相关原则列表
    | 领域 | 原则 |
    | ---- | ---- |
    | 人工智能 | 理性行动、满意化策略 |
    | 认知科学 | 奥赖利的五个原则、贾斯特和瓦尔马的五个原则、瓦尔马的建模概念 |

graph LR
    A[视觉问题] --> B[注意力调节机制]
    B --> B1[提高信噪比]
    B --> B2[优化选择标准]
    B --> B3[减少搜索空间]
    A --> C[认知建模原则]
    C --> C1[人工智能原则]
    C --> C2[认知科学原则]
    C1 --> C11[理性行动]
    C1 --> C12[满意化策略]
    C2 --> C21[奥赖利原则]
    C2 --> C22[贾斯特和瓦尔马原则]
    C2 --> C23[瓦尔马概念]
    A --> D[生存需求]
    D --> D1[变量枚举]
    D --> D2[生存函数]
    D --> D3[约束条件]

以上内容涵盖了视觉问题的本质、注意力调节机制、认知建模原则以及生存需求等方面的知识,为我们理解视觉注意力与认知建模提供了一个较为全面的框架。

4. 对所提出原则的讨论

前面所提出的这些原则不太可能是关于视觉注意力和认知建模的最终定论。很有可能这些原则并非完整的集合,而且其中很多可能并不实用甚至是错误的。更合理的问题或许是,这些原则是否有助于推动相关研究的进展。

为了判断上述原则是否有用,可以考虑它们如何帮助解决该领域的开放性问题。阿道夫斯(Adolphs)列出了一些神经科学领域的开放性问题,从不同的视角来看,这些问题也涉及到建模方面的挑战。

阿道夫斯强调了算法的重要性,但可能需要一个更具计算性的视角。在他列出的未解决问题中,表征仅在抽象思维的背景下出现,这一角色过于狭窄。实际上,表征在所有层面的处理中都是关键的。没有定义良好的表征,就无法设计算法,更不用说对其进行测试。例如,视神经束发出的信号代表什么?V1区域的前馈信号、V4区域的反馈信号以及MT到V4的通信信号又代表什么?一旦提出了表征,就可以设计算法将一种表征转换为下一个处理流中的表征,并测试它们执行这些任务的效果。为了选择一种表征,必须对每个视觉区域、神经集合或神经元应该计算什么、正在解决什么“问题”做出假设。

马尔(Marr)提出的三个分析层次,即计算层次、表征和算法层次以及实现层次,是建模的一个重要哲学指导。可以在此基础上增加第四个层次,即复杂度层次分析。马尔的计算层次旨在回答计算的目标是什么、为什么合适以及可以采用的策略逻辑是什么,但他没有考虑到有些计算解决方案在物理上是不可实现的。复杂度层次分析的目的是确保解决问题的策略逻辑在资源要求方面是可行和现实的。瓦尔马(Varma)以及大多数研究视觉注意力模型的作者都指出了资源约束问题,这是一个普遍存在的问题,因此必须将其纳入指导建模的原则列表中。

算法的性能还可以从另一个角度进行表征,即算法在面对时间压力、信息不完整或其他非理想环境因素时的表现。好的算法应该能够优雅地降级,这不仅指在软件或硬件设计中对故障或损坏的容忍度,还指系统在非理想情况下能够合理地运行。因此,优雅降级的要求也应该成为建模者的必备技能。

回到阿道夫斯列出的开放性问题,其中一些问题如小鼠大脑的完整连接组、对活体小鼠大脑进行细胞和毫秒级分辨率的成像、精神和神经疾病的病因以及睡眠和做梦的原因,建模可能对解决这些问题帮助不大。但认知建模的目标显然包括回答诸如神经元回路如何计算、学习和记忆如何工作、我们如何做出决策以及大脑如何表征抽象概念等问题。

5. 建模的哲学、原则和要求总结

为了说明前面提出的原则对这些问题的实用性,下面总结一下讨论过的建模哲学、要求和原则:

建模哲学
  • 满足马尔的三个分析层次
    • 计算层次 :明确计算的目标、合理性和策略逻辑。
    • 表征和算法层次 :设计合适的表征和算法。
    • 实现层次 :将算法在实际系统中实现。
  • 最大化经验覆盖 :用模型解释尽可能多的经验规律。
  • 奥卡姆剃刀原则 :在预测效果相同的竞争假设中,选择假设最少的那个。
建模原则
  • 注意力动态减少计算负载 :通过调节机制减少不必要的计算。
  • 注意力动态调节视觉和认知 :根据任务、目标和输入做出反应,具体包括提高信噪比、优化选择标准和减少搜索空间。
  • 理性行动 :在资源限制下最大化目标实现。
  • 主动感知 :大脑中不存在被动观察者,感知是主动的过程。
  • 分布式表征和处理 :表征和使用它们的过程都是分布式的。
  • 视觉注意力和认知是网络过程的属性 :它们是多个过程相互作用的结果。
  • 误差驱动和赫布学习 :学习基于误差和赫布规则。
  • 竞争和双向信息传输 :这两种机制在认知过程中普遍存在。
建模要求
  • 满足复杂度层次分析
    • 所解决的问题必须是可判定和可处理的。
    • 提出的算法必须是可处理的。
    • 所需资源必须与可用资源相匹配。
  • 设计为优雅降级 :算法在非理想情况下能合理运行。
  • 实现满意化行为 :找到足够好的解决方案,而非追求最优解。
  • 遵循生存需求 :确保模型在满足生存约束的前提下运行。
相关列表与流程图
  • 建模相关要素列表
    | 类别 | 具体内容 |
    | ---- | ---- |
    | 建模哲学 | 马尔的三个层次、最大化经验覆盖、奥卡姆剃刀原则 |
    | 建模原则 | 注意力调节、理性行动、主动感知等 |
    | 建模要求 | 复杂度层次分析、优雅降级、满意化行为、生存需求 |
graph LR
    A[建模哲学] --> A1[马尔的三个层次]
    A --> A2[最大化经验覆盖]
    A --> A3[奥卡姆剃刀原则]
    B[建模原则] --> B1[注意力调节]
    B --> B2[理性行动]
    B --> B3[主动感知]
    B --> B4[分布式表征和处理]
    B --> B5[视觉注意力和认知的网络属性]
    B --> B6[误差驱动和赫布学习]
    B --> B7[竞争和双向信息传输]
    C[建模要求] --> C1[复杂度层次分析]
    C --> C2[优雅降级]
    C --> C3[满意化行为]
    C --> C4[生存需求]

综上所述,这些建模的哲学、原则和要求为视觉注意力与认知建模提供了一个较为全面的框架。虽然这些原则可能并不完善,但它们为研究者提供了一些指导方向,有助于推动相关领域的研究朝着更合理、更有效的方向发展。未来的研究可以在这些基础上进一步探索和完善,以更好地理解人类的视觉注意力和认知过程。

【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)内容概要:本文介绍了一种基于神经网络的数据驱动迭代学习控制(ILC)算法,用于解决具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车路径跟踪问题,并提供了完整的Matlab代码实现。该方法无需精确系统模型,通过数据驱动方式结合神经网络逼近系统动态,利用迭代学习机制不断提升控制性能,从而实现高精度的路径跟踪控制。文档还列举了大量相关科研方向和技术应用案例,涵盖智能优化算法、机器学习、路径规划、电力系统等多个领域,展示了该技术在科研仿真中的广泛应用前景。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的研究生、科研人员及从事无人车控制、智能算法开发的工程技术人员。; 使用场景及目标:①应用于无人车在重复任务下的高精度路径跟踪控制;②为缺乏精确数学模型的非线性系统提供有效的控制策略设计思路;③作为科研复现算法验证的学习资源,推动数据驱动控制方法的研究应用。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注神经网络ILC的结合机制,并尝试在不同仿真环境中进行参数调优性能对比,以掌握数据驱动控制的核心思想工程应用技巧。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值