一种用于双向闭环的新认知架构
摘要
本文提出了一种基于注意力的社交机器人新认知架构。该架构旨在结合感知与推理,并考虑双重相互作用:当前任务影响感知过程,而所感知到的项目则根据智能体的当前上下文和角色决定需执行的行为。因此,所提出的架构为感知‐推理‐行动循环闭合问题提供了一种双向解决方案。该提案分为两个性能层次,采用基于对象的视觉注意力模型作为感知系统,并在高层慎思层使用通用规划框架。该架构已在真实且无限制的环境中进行了测试,涉及真实机器人、时变任务和日常生活情境。
关键词 :认知架构 · Attention模型 · Social机器人 · Bidirectional闭环
1 引言
放置在真实世界中的自主机器人必须处理大量视觉信息。同时,智能体必须应对不同的动作和随时间变化的任务,并对意外情况做出反应。在为这种机器人开发感知系统时,会出现一些关键问题:能否根据智能体的当前职责改变其感知世界的方式?反之,新的有趣物体能否改变正在进行的任务?感知与推理如何在自主机器人中同时协同工作?
从慎思的角度分析该问题,需要完成的行为取决于对特定对象集的感知。根据这一定义,可以推断出其对慎思规划的影响:部分可观测性和不确定性,因为注意力模型限制了机器人所感知的信息。同时,实现某种特定行为很可能需要将注意力集中在某一类特定对象上。换句话说,由注意力驱动的感知系统与慎思规划器之间存在着极为紧密的关系,而这种关系通常包含在经典感知‐推理‐行动循环的推理阶段中。
生理学观察表明,某些感知特征(如位置或形状)会引发与这些特征相关的动作[1, 2]。因此,与这些动作相关的刺激处理应被预先激活。因此,感知‐推理循环的经典单向假设是不够的。一个完整的解决方案必须涵盖感知、推理和动作之间的双向相互作用。
尽管一些作者已经解决了闭环问题的若干部分([3–7]),但他们通常提出的是“孤立”的解决方案。因此,目前缺乏提供集成化解决方案的提案,尤其是在引入基于注意力的感知模型时。本文提出了一种基于需求的新型认知架构,用于实现基于注意力机制的双向感知‐推理闭环。该架构基于一个通用的规划框架与基于对象的注意力模型之间的交互:规划框架生成受视觉系统所感知信息约束的计划,而注意力模型则能够突出显示适合当前正在进行的任务的相关元素。通过交换相关元素和感知参数集,认知系统能够以一种需求−驱动的方式决定将要执行的任务。最后,主导任务选择下一步将要搜索的元素类型,系统以此方式循环地再次执行闭环过程。
本文其余部分组织如下。第2节介绍了所采用的基于注意力的感知系统。第3节描述了所提出的认知架构以及针对闭环问题的双向解决方案。最后,实验结果在第4节中给出,并在第5节中进行讨论。
2 基于注意力的感知:基于对象的视觉注意力系统(OBVIAS)
所提出的架构采用基于对象的注意力模型OBVIAS[8]作为感知系统。
OBVIAS是一种双阶段注意力系统,融合了与任务无关的自下而上处理和依赖于任务的自上而下选择(见图1)。注意力的单位是所谓的原型对象[9],它们被定义为可以被边界化为连贯且稳定物体的视觉信息单元。
在前注意阶段,通过基于一组基本特征(颜色、形状等)计算显著性度量,获得场景中的相关元素。
受到一组感知参数的偏置,这些参数决定了当前待完成任务的影响。首先,使用感知分割算法提取图像中不同的原型对象。然后,通过考虑由注意集加权的多种低层特征,计算每个原型对象的相关性,attentionalset(λ)[10],定义为一组不同的感知参数,能够突出具有特定特征的原型对象[10]。注意集存储在感知调节记忆(PMM)中,该记忆实现了自上而下的注意力成分。根据注意集中具体的数值,系统能够调整各低层特征在全局显著性计算中的影响,从而以自上而下的方式引导注意力。也就是说,同一元素的显著性可能因正在进行的任务不同而不同。该阶段的结果是获得一组按显著性排序的原型对象,并将其保存在工作记忆(WM)中。
下一阶段,即半注意力阶段,涉及工作记忆(WM)和返回抑制(IOR)的管理。返回抑制(IOR)可避免系统陷入最相关的元素而忽略场景的其余部分。因此,在计算注意力系统的上下文中,使用返回抑制(IOR)成为必要。对于OBVIAS而言,跟踪模块会更新工作记忆中每个元素的位置,从而不仅能够管理移动物体,还能处理相机和机器人自我中心运动。
有关OBVIAS的前注意和抑制返回(IOR)过程的更多细节,请参见[8]。关于工作记忆(WM)管理,根据邦德森的视觉注意力理论[11],OBVIAS中同时存储在工作记忆中的原型对象数量固定为5个。每个工作记忆中的原型对象都具有一组描述符:显著性值、深度、方向、颜色、面积、位置、低层特征、生存时间以及该原型对象在图像中所占据的感兴趣区域(ROI)的副本。一个新的原型对象只有在满足特定条件时才会进入工作记忆:它比当前存储的元素更显著。如果记忆已满,则最不显著的元素将被放下。如果原型对象被图像跟踪器丢失,也可能从工作记忆中移除。工作记忆中元素的总显著性会在每个感知周期根据新的注意集重新计算,从而确保存储的原型对象的显著性始终保持最新。
原型对象的显著性还取决于生存时间参数[12]。一个已存储在工作记忆中的原型对象,在其生命周期初期,由于具有较高的生存时间,其显著性会增加。相反,较老的原型对象的显著性则会因其生存时间的延长而相应降低。为了在工作记忆中实现这一行为,对生存时间应用了一个指数函数。总之,工作记忆的运作方式类似于缓存存储器。只要某个原型对象对于正在进行的任务仍然相关,它就会保留在记忆中。只有当出现新任务,且工作记忆中没有任何原型对象适合完成新的行为时,工作记忆的内容才会被完全替换。
工作记忆(WM)和感知调节记忆(PMM)都是早期基于注意力的感知模块与系统其余部分(包括慎思层)之间的接口。一方面,工作记忆将最相关的原型对象提供给系统的其他模块;另一方面,其他模块能够通过更换存储在PMM中的注意集,引导注意力系统关注场景中特定且有用的物体。
3 基于需求的认知架构
正如引言部分所指出的,大多数人工注意力系统在与抽象推理层的连接方面存在不足。为了解决这一问题,本节介绍了所提出的认知架构,该架构以之前章节中提出的基于注意力的感知系统为起点,进一步扩展,认为基于注意力的感知与抽象推理之间存在着紧密且共生的关系:二者同时相互调节。
所提出的基于需求的认知架构如图2所示。该架构分为两个层次。较高层次,即基于知识的层次,用于确定当前上下文和智能体的角色。因此,这一抽象推理层次的目标是通过在较低层次上添加或移除任务来选择将要激活的任务。它还根据上下文数据以及每个动作的完成状态调整这些任务的优先级。该层次的核心是一个规划框架,该框架可借助其他模块(机器学习、知识、机器学习等)来推断上下文。
每个时刻可以执行的不同任务位于基于规则的层级。根据所感知的元素,任务可能被执行或不被执行。该层级关注执行的定量模型,而任务则基于作为视觉元素的感知类别的需求。换句话说,任务的完成与特定元素的存在密切相关。
3.1 基于知识的层次
基于知识的层次负责协调和管理位于基于规则的层次上的任务。当智能体的角色或环境条件发生变化时,需要获得一组适合当前场景的新规则。这些规则被转化为一组新的任务,以处理环境中的特定部分和预期情况。
为了进行整体规划、目标定义和决策过程,该层次的核心设置了一个通用规划框架。它接收来自感觉输入以及位于基于规则的层次上的任务的信息。视觉信息以抽象谓词的形式表达,这些抽象谓词来源于感知到的视觉类别(例如“红色方形附近”、“远处的人脸”、“圆形绿色形状”等)。由于视觉数据由注意力系统提供,规划框架必须能够处理部分信息。因此,应允许计划根据感知到的元素进行持续适应。具体而言,我们使用了基于过量规划(OSP)的规划、监控与学习框架(佩莱阿)[13]。
因此,获得了一组可解决整个问题不同部分的动作(任务)。对于每个任务,定义了一组前提条件和需求(即需要感知的视觉类别)以及其优先级。此外,还确定了任务对注意力引导的影响,从领域定义中可用的模板中选择一个自上而下的模板。
最后,其他有助于从视觉数据中识别上下文信息的模块也可以放置在此层级(机器学习、场景理解、人机交互⋯⋯)。
3.2 基于规则的层次
如前所述,由基于知识的层次检测出的更符合智能体当前上下文和角色的任务将被放置在此层次中。每个任务关联两个主要参数:i)需求:执行相应动作所需感知的视觉类别(例如“人脸”、“绿色物体”等)。ii)激活潜力:该因子用于测量已满足的需求数量,从而衡量未来执行某项任务的概率。因此,当某动作的视觉要求(需求)被满足时,该动作就会被执行;反之,则根据自上而下的模板施加注意力引导。每个任务的激活潜力是通过当前已满足需求的加权线性组合获得的,这些权重在领域定义中设定。每个任务的注意力引导影响力取决于其激活潜力。因此,场景中能够完全满足最高概率待执行任务之需求的元素可被突出显示。需要注意的是,用于视觉引导的自上而下模板是由基于知识的层次在获取需放置于基于规则的层次中的任务时选定的。某些特定需求可能会产生更高的激活水平。例如,一个机器人手臂执行“当红色危险灯亮起时按下橙色SOS按钮”这一任务时,该任务应具有较高的激活潜力,以便在“红色灯光”类别一旦被满足时立即触发“橙色按钮”的条件,而不受其他条件影响。
3.3 Closing the Loop
为了最终将架构的推理层级与用作感知系统的注意力模型连接起来,必须将存储在工作记忆中的原型对象转换为抽象谓词,而与基于规则层次中的任务相关联的用于注意力引导的抽象模板则必须转换为注意集并存储在PMM中。前者过程在分类器中进行,而后者则在解释器中执行。
4 实验结果
在本节中,对整个认知架构进行了测试。评估主要集中在分析基于需求的架构在应对复杂环境和时变任务问题时的可靠性。实验涉及一个真实的社交机器人(NOMADA),将其放置在自然环境中,对光照或背景元素没有任何特殊限制。在实验中,机器人需要将人类提供的不同物体(彩色球)分类到相应的容器中。为了简化对应于分类器和解释器的算法,做出了一些简化假设:(i)人们总是向机器人提供球;(ii)容器由墙上的彩色矩形表示;(iii)机器人必须将每个球送到与其颜色匹配的矩形处。另一方面,场景中的光照、元素或人数没有限制。为了验证系统的鲁棒性,一些球被作为干扰物放置在环境中间。
默认情况下,机器人会寻找需要帮助的人类。在此任务中,人类是场景中最相关的元素。具体而言,始终优先选择最近的人。因此,解释器将这些需求转化为相应注意集中与肤色、圆形度和邻近性相关的参数增加。当机器人找到人类后,会向他们移动并检测其是否持有球。如果感知到球,机器人将打开一个隔间以接收该球。在这种情况下,需要在注意集中增加的参数为圆形度和邻近性,同时仍保留对人类的需求。一旦机器人获得球,下一步便是寻找墙上最近的对应矩形并朝其移动。此时,人类和球不再相关。
因此,注意集被配置为增加与对称性、邻近性和特定球的颜色相关的参数。最后,机器人放下球并返回默认任务。
图3总结了位于基于规则的层次上的任务,包括它们的需求以及对注意集的影响。根据机器人的当前行为,基于知识的层次会添加或移除某些任务。具体来说,当完成默认行为(检测到人)时,基于知识的层次会移除寻找人类任务,并添加与协助人类活动相关的任务(寻找球、移向人类和获取球)。类似地,当获得一个球时,这些任务会被替换为属于回收行为的任务。因此,可激活的任务会根据当前上下文而变化。
图4展示了一次实验2的成功执行过程,包含SMPTE时间码。图中还显示了工作记忆中的分类内容、待执行的计划以及将存储在感知调节记忆中的特定注意集。可以看出,每帧中相关原型对象的数量有所不同。在前两帧(图4的第一行)中,机器人正在执行其默认行为,即寻找人类(注意集中对肤色赋予了较高的相关性)。在第三帧(第二行第一帧)中,基于知识的层次已将任务切换为对应的辅助行为。此时视野中只有一个人,因此两个任务的需求均已满足:向人移动和寻找球。移动任务已经完成(机器人已靠近此人),因此执行寻找球任务。否则,将执行移动任务以接近远处的人。
当机器人发现球和人时,执行获取球任务(显示的第四帧)。紧接着,行为发生另一次变化,并在基于规则的层次上加载与回收行为相对应的任务。当容器不可见时,执行搜索容器任务(第5和第6帧)。注意,所获得的球对应的颜色(在此情况下为蓝色)会在注意集中高亮显示,以便找到正确的标记。在第7和第8帧(第四行),由于远处标记可见,激活了移动任务。最后,一旦机器人靠近“容器”,便将球放下(最后一行的帧),行为再次切换回默认状态。机器人执行所有任务大约耗时55秒。
该实验已使用不同颜色并在人员位于不同位置的情况下重复进行。由于认知架构的持续适应性,机器人不太可能陷入不行动或执行错误行为。然而,并非每次都能成功执行。这主要是由于对感知到的原型对象进行了错误分类所致。另一个常见错误是收集到的球的颜色分配不正确(通常由人的衣物引起),或者将场景中的无用物体误识别为目标标记(例如,“红色容器”类别可能被轻易分配给红色灭火器)。相反,该架构固有的鲁棒性非常显著。
例如,遮挡和丢失物品能够以一种自然的方式得到处理。如果在导航过程中某个目标(例如“容器”标记)丢失或被遮挡,则移向容器任务的需求无法完全满足。因此,搜索容器任务变得可执行,系统会再次寻找该目标。此外,注意力不会被其他行为相关的元素所吸引。当机器人处于回收行为时,其感知系统会忽略附近走动或站立的人以及干扰球。
在类似场景下共进行了20次执行的实验,成功率为85%。人类的初始位置以及涉及的颜色在不同评估中各不相同。从这些执行中测量了一些统计数据。机器人平均需要130次迭代的感知‐推理‐行动循环才能完全解决问题。由于人们初始位置的多样性,该测量值的标准差具有高值(60)。同时测量了执行时间:机器人耗时约53秒平均。这产生了大约2.4 iterations/秒的比率。因此,该架构足够快,能够对行为变化做出反应。在一次完整评估期间,每个任务的激活次数也已被测量(见表1)。涉及视觉搜索的任务被激活的次数明显多于其他任务。这种行为完全合理,因为这些任务的需求较少,且在没有其他可行操作时会作为默认任务执行。其中,搜索人类任务的情况尤为显著,因为在某些评估开始时场景中没有人。相反,取球和放球相关的任务总体执行次数最少,因为这些任务需要非常特定的条件才能执行。
| 任务 | 搜索人类 | 搜索Ball | 搜索容器 | 移向人类 | 移向容器 | 获取球 | 放下球 |
|---|---|---|---|---|---|---|---|
| 平均激活比例 | 73% | 15% | 6% | 2% | 2% | 1% | 1% |
5 讨论
本文介绍的认知架构已根据兰利等人提出的准则进行了评估。[15]。实验结果表明,该提案能够根据时变任务和行为区分不同种类的信息。因此,在计算成本使得完整场景处理不可行的复杂环境中,可以通过突出简单、特定且合适的特征来减少接收的信息量。该提案的双向性也得到了验证:不仅感知系统能够根据正在进行的任务得到引导,而且显著物体的出现还能触发等待中的任务,甚至改变机器人的当前行为(例如,检测到人后机器人转为提供协助)。
所提出的基于需求的架构的模块化配置提供了高度的通用性。通过定义相关任务(包括其感知需求和影响)并提供新的领域定义,该提案可适应不同的用途。任务模块化使得新行为的开发更加容易,因为在任务层面无需考虑相互依赖性,这些相互依赖性在基于知识的层次上作为抽象谓词进行处理。
理性也内在地体现在所提出的架构定义中。只有那些被认为能够实现行为有用目标的任务才会被置于基于规则的层次。此外,只有当任务的所有需求都得到满足时,该任务才能被激活。因此,只有能够实现目标的动作才会被选择。持续性在该架构中也显而易见。例如,当机器人接近一个“容器”时,人仅被视为需要避开的障碍物,而机器人不会尝试去协助他们。也就是说,场景中的微小变化(这些变化不预期会影响正在进行的行为)不会改变当前要完成的活动。
最后,reactivity与基于规则的层次密切相关。意外类别可通过一个仅需满足一个条件的高优先级任务来处理。尽管在评估实验所展示的任务中没有这样的任务,但其功能可能类似于任何标准任务。因此,系统能够立即对任何情况做出反应。
832

被折叠的 条评论
为什么被折叠?



