生物启发式动作理解模型

部署运行你感兴趣的模型镜像

基于动态上下文化与比较的生物启发式动作理解

摘要

人们表现出强大的理解周围他人动作的能力。在 这项工作中,我们确定了两种受生物启发的机制,并假 设它们在动作理解功能中起着核心作用。第一个模块是 所观察动作的上下文预测器,该预测器基于朝向物体的 目标导向运动以及允许对该物体执行的动作进行预测。 第二个模块是运动轨迹解析器,它将前述预测与一组学 习到的模板进行比对以验证其正确性。我们对这两种机 制进行了建模,并使用动态场理论这一认知框架将其与 环境关联起来,展示了将上述模块整合为一个一致的动 作理解框架的初步尝试。通过记录一名演员执行一系列 有意动作的实验数据,我们对这两个模块及整体组合架 构进行了实验验证,以测试该架构理解上下文并动态解 析动作的能力。初步的定性结果表明,动作理解得益于 这两个模块的组合,而单独任一模块均不足以消除感知 到的动作中的歧义。

关键词

动态场理论, 动作理解, 具身嵌入认知, 可供性 理论,心理理论

1 引言

智能机器人与人类主体共享环境并协作实现共同目标的 前景一直是辅助机器人应用的主要推动力[1, 2]。这本身 要求机器人具备与人类相当的行为生成和环境推理能力。 人类行为和认知推理能力可被视为身体、大脑以及人类 主体所处环境之间的一种动态、复杂交互。正是智能体 的感觉和运动系统与环境之间的紧密耦合,引发了一系 列适应性和主动性的动作,以实现特定意图。这种情境 化的具身认知观涵盖了上述思想[3]。此外,它还试图将 智能体的过往经验以及神经元过程纳入对行为和认知的 理解之中[4, 5]。

动作理解(AU)可以定义为将人类相关的多模态数 据流(运动、音频、上下文等)分类为语义术语的任务, 这些语义术语可用于以有意义的方式影响未来的智能行 为,从而支持人类主体。智能系统在动作理解中面临多 个挑战。这些挑战包括动作类别内部的时空变异,以及 不同个体执行动作时存在的类间和类内变异。此处的时 空变异指的是:相似的动作在不同智能体和不同试验中 可能在持续时间和路径上存在差异。另一个主要挑战是 在任何环境中智能体可用的动作具有庞大的搜索空间 [6, 7]。为了能够理解一个动作,智能系统需要通过鲁棒 的轨迹识别系统来解决时空变异问题,并通过引入动作 的上下文来应对庞大的搜索空间问题。

在我们致力于实现端到端的、受生物启发的分层人 类动作理解架构的过程中,我们提出了两个系统,以应 对上述挑战,并假设它们能够 AU任务的核心。这两个系统受到第2节中讨论的人类行 为研究中观察到的过程的启发。本研究解决的主要挑战 是观察到的运动的情境理解和该运动的轨迹解析。本研 究涉及的其他次要挑战包括情境理解如何与轨迹解析相 互作用,以及如何以与完整系统一致的方式将运动的视 觉信息作为输入。本文提出的工作受到具身情境认知立 场中定义的启发,如第2.1节所述。情境理解基于第2.2 节中给出的可供性的定义,而轨迹解析则遵循第2.3节中 讨论的生物运动感知的概念。这些模块和整个系统均采 用动态场理论(DFT)内发展的认知框架进行建模。

近年来,使用动态场理论(DFT)对动作理解系统 进行建模的研究已在文献中得到探讨。洛巴托等人在[8] 中提出了一种用于解析动作序列的神经动力学方法。作 者提出了一种神经动力学架构,能够检测并表征一系列 动作,即在桌面场景中伸手/抓取/放下物体。该研究未考 虑轨迹识别,而是利用手和物体的三维位置来判断手是 否在接近物体。该整体架构能够记忆一连串的动作,以 实现整体动作理解。比乔等人也在神经场框架下开展了 类似研究,其工作重点是在协同装配任务中整合言语与 非言语交流,其中动作序列是预先给定的[9]。与洛巴托 等人和比乔等人的研究相比,我们将动态神经场( DNF)的应用范围扩展到利用上下文和运动信息对时间 上延展的动作进行表征和识别。此外,洛巴托等人和比 乔等人的研究仅限于桌面场景,而我们所提出的系统具 有足够的通用性,可用于理解移动、操作以及自由空间 中的动作。

关于自主单元(AU)任务本身,存在多种方式来理 解智能体可能执行的动作,这使得动作理解系统面临巨 大的搜索空间。我们通过将三个过程建模到上下文动作 理解系统中,以解决情境理解的问题。首先,我们对目 标导向运动的检测进行建模。其次,我们对注意力从关 节(末端执行器)向关节运动动作线中的物体转移进行 建模。最后,我们根据物体的可供性对运动的情境理解 进行建模。

注意力被转移到的对象。可供性(affordances)这一 术语指的是物体可能允许的动作可能性[10]。第2.2节给 出了可供性的详细定义。基于可供性的运动上下文通过 一种新颖的上下文动作识别系统(CARS)来理解。该 CARS由多个情境动作识别模块(CARMs)组成,具体 内容在第5.2节中进一步讨论。使用多个CARMs是因为 每个我们可能希望跟踪的兴趣项目(例如,末端执行器) 都需要一个CARM。CARS的功能是从已学习到的模板 数据库中选择最具相关性的模板子集,以表示运动特征。

一个独立的可供性逻辑块有助于此选择过程,相关内容 在第5.4节中进一步讨论。 本文解决的第二个AU挑战是轨迹解析。这种在线比 较在轨迹动作识别系统(TARS)中进行。该系统允许模 板与观测到的运动之间存在时空变异,如果两者匹配则 输出正向结果。TARS由多个动作识别模块(TARMs) 组成,每个模块针对需要识别的动作而设计,具体将在 第5.3节中讨论。从关节运动的视觉输入转换为用于比较 的生物启发式特征的过程也进行了考虑,并在第5.1节中 进一步讨论。

总体而言,本文提出的AU架构首次在动态场理论 (DFT)中构建了一种新颖的预测系统,用于建模注意 力转移,并在第二步中与轨迹解析系统相结合。该轨迹 解析系统考虑了空间和时间变化,这些因素在动作理解 过程中通常具有挑战性。特别关注了物体和环境如何被 整合到整体架构中,以及它们如何驱动动作理解。这两 个模块及其组合的整体架构通过记录一名演员执行一系 列有意动作的实验进行了验证。该实验重点考察了该架 构理解上下文并动态解析动作的能力。我们在第6节中给 出的初步定性结果表明,两个模块的结合有助于提升动 作理解的效果,而单独任一模块均不足以消除感知动作 中的歧义。关于实验结果及AUA本身的完整讨论见第8 节。

与最先进的技术相比,本研究中的AU架构结合了上 下文识别和轨迹识别,而不是单独选择上下文识别或仅 进行轨迹解析来完成任务 动态动作理解 | 21 动作理解。此外,与动态场理论(DFT)内的相关工作 相比,我们以一种与DFT所基于的具身认知的情境化观 点中定义一致的方式,明确地对物体及其可供性进行建 模。该模型的应用领域涵盖情景理解到人机交互场景, 其中智能系统被期望以有意义的方式协助人类[1, 2]。该 模型的优势源于上下文系统(CARS)、轨迹解析系统 (TARS)和可供性系统之间的相互作用,从而能够理解 广泛的动作(操作、移动和自由空间动作)。目前,该 模型存在一些限制:首先,模型使用了一些算法捷径, 这些捷径缺乏生物合理性;其次,当前的技术实现存在 局限性(例如,由于离线模板生成速度较慢)。更快速 的实现将是未来工作的课题,以便能够在不同场景下对 系统性能进行全面评估。

2 背景

在本节中,我们旨在正式定义激发我们认知动作理解方 法的主要概念。我们将在第2.1节讨论情境化认知背后的 思想,以及它如何引出可供性(affordances)的概念, 该概念将在第2.2节进一步探讨。我们还将在第2.3节简 要讨论人类运动感知,以及它在历史上对动作理解问题 的重要意义。最后,在第2.4节中,我们将讨论本研究开 发的系统与神经科学发现之间的联系。

2.1 具身嵌入认知

情境化认知背后的基本假设是,行为是智能体与其环境 之间动态交互的产物,并且无法与其产生的上下文相分 离[4, 11, 12]。信息被认为是智能体与环境耦合的产物, 而不是如传统认知观点所提出的那样,是智能体大脑中 先验的表征。情境化认知与生态心理学[10]和意向动力 学[13]有着共同的理念。此外,此处定义的认知被理解为 一种连续状态,在此状态下运动‐感觉系统进行动态交互。 因此可以自然地使用动态系统理论的思想来描述[5]。

我们将动作理解定义为一种动态过程,该过程尊重 运动系统、感觉信息与环境之间紧密耦合的相互作用。 我们使用动态场理论来建模这一动态过程,因为动态场 理论提供了所需的工具,例如吸引子状态的稳定性、局 部隆起表征等,以建模环境与传感器之间的联系。我们 将在第3节中详细讨论动态场理论。情境化认知与生态心 理学领域有着共同的理念,特别是关于可供性的定义, 我们将在下一节中进一步讨论。

2.2 可供性

已有越来越多的证据表明,动作是根据其目标进行编码 的。对环境中可用物体的动作可能性(可供性)以及朝 向这些物体的目标导向运动的直接感知,可以提示动作 的上下文是什么。本文提出的CARS对这一过程进行了建 模。CARS的功能是通过预测将要操作的物体以及处理该 物体的可供性,来理解目标导向行为。

可供性这一术语由吉布森提出,作为一个通用概念, 用于解释环境能为智能体提供什么以及存在哪些动作可 能性[10,18, 19]。自从吉布森本人提出该概念以来,可供 性的精确定义一直存在争议,从而引发了一系列试图形 式化该概念的努力[20–24]。然而,在本研究中,我们借 鉴了先前的研究,将可供性定义为智能体从直接环境中 所感知到的、与智能体相关的活动潜力。所谓与智能体 相关,是指环境对象的可供性是相对于智能体的参数 (如身高、宽度、能力等)而言的,例如,一个婴儿椅 可能并不为成人提供可坐的可供性,等等[25]。轨迹信 息也应与上下文结合使用,以验证上下文信息的结果, 并在存在多种可能的可供性或上下文时解决歧义问题。 接下来,我们将讨论生物运动感知的含义,以及轨迹如 何被生物性地感知和理解。

2.3 生物运动感知

朱尔·马雷[26]和冈纳尔·约翰松[27]的早期工作试图通 过在穿着深色服装的人体关节上附着标记物或光源来研 究人类对生物运动的感知。记录演员活动时产生的动画 被称为点光源动画(PLA)。这些点光源动画引起了极 大关注,因为当向人们展示这些动画时,他们能够成功 识别出 underlying 动作[28]。这些结果表明,存储的运 动信息模式可用于解释传入的运动感官信息。事实上, 生物系统依赖于由身体静态视图产生的特征流(刺激) 来感知和分类运动模式[29]。这些特征可被视为特定身体 构型的形态线索,为此,吉斯在[30]中讨论了快照的概 念,以解释如何解决生物运动问题。我们引导读者参考 吉斯在[31–34]中的工作以获得进一步讨论。因此,从生 物运动中提取的信息对于理解人类运动至关重要[35, 36]。 本研究中的TARS模型正是基于这些理念,旨在通过解析 运动轨迹来理解动作。

2.4 与神经科学的关系

动作和情境理解也在生物智能体的神经元层面得到体现, 例如分别表现为镜像神经元系统(MN)和规范神经元系 统(CN)的功能。镜像神经元系统中的特定神经元不仅 在智能体自身执行动作时放电,而且在观察到相同的目 标导向动作时也会放电。这些神经元被假设用于表示一 种具身过程,从而实现动作识别与意图识别[14, 37]以及 心理理论[38]。镜像神经元系统实现这些功能的机制通 常通过直接的“匹配假设”或“运动共振”来解释,即 所观察到的行为的编码神经信号与该运动如何被执行所 产生的神经编码进行匹配[39, 40]。这种匹配的内容可能 是意图的高层抽象、编码模仿目标导向动作计划的运动 代码,或是编码运动轨迹及如何模仿该动作本身的详细 运动代码[41]。此外,已有研究表明,在镜像神经元系统 中存在一些特定神经元,它们对动作的执行方式和最终 达成的目标具有高度特异性,而另一些神经元则缺乏这 种特异性,其关联仅限于 动作目标。镜像神经元系统的其他特性是,当仅观察物 体时不会激活,同样在仅展示运动时也不会激活[42]。

相比之下,经典神经元似乎编码了指向物体的动作 可能性,并促使我们在自主单元的生物模型 [42–46] 中 引入可供性。事实上,动作可以根据其运动以及动作所 指向的目标来理解 [47]。

在本节中,我们强调了需要将受生物启发的环境上 下文理解过程和轨迹解析动态地整合到一个一致的自主 单元认知框架中。我们决定使用接下来介绍的动态场理 论对该框架进行建模。

3 动态场理论

构成TARS、CARS和可供性逻辑系统的模块核心是随着 紧密耦合的输入而动态演化的决策过程。这三个系统均 需要认知能力来实现其功能。CARS需要物体检测、运动 预测和目标选择的认知能力。而TARS则需要特征检测和 比较的能力。最后,可供性逻辑系统需要动态选择和长 期记忆的能力。接下来,我们将介绍动态场理论( DFT)的动态认知框架,并详细阐述本研究中各系统所 使用的构建模块。

3.1 动力学与不稳定性

动态场理论(DFT)提供了一个数学和理论框架,该框 架基于动态神经场(DNF),用于建模具身化、情境化 的认知观[5]。DNF是一种在群体水平上描述动态神经元 激活的认知数学模型,其决策过程受到皮层神经元群体 中模式形成的启发。这些稳定状态(局部隆起)随着时 间的推移,在动态感知输入作用下于神经场中动态地演 化(和退化),并作为表征单元。这些表征单元是神经 群体内神经元之间复杂相互作用的函数,是描述认知特 性的主要单元 神经场内的连接。这些神经元之间强烈的递归连接产生 了用于建模检测、选择性和工作记忆的模式。其动态特 性由以下积分微分方程在数学上描述,该方程最初在[48] 中提出
$$ \tau u˙(x, t)= −u(x, t)+h+∫︁ f(︀u(x′, t))︀ω(x−x′)dx′+S(x, t)(1) $$
$$ ω(x −x′)= c_{exc} \exp\left(\frac{(x −x′)^2}{2σ^2_{exc}}\right)−c_{inh} \exp\left(\frac{(x −x′)^2}{2σ^2_{inh}}\right)(2) $$
$$ f(︀u(x, t))︀= \frac{1}{1+ \exp(︀− βu(x, t))︀}(3) $$

其中,场的激活 u(x,t) 如(1)式所示,描述了在度量维度 x上随时间t变化的活动。此处,x代表一个行为维度,即 底层神经元群体所响应的维度。该行为维度对应于神经 元所编码的特征与属性空间。具体而言,特征空间中某 一点的活动反映了对该特征值的支持程度。因此,场u 的激活程度可被理解为沿行为维度x的特征空间中信息的 存在或缺失。时间尺度 τ描述了场的弛豫过程,负常数 h定义了场的静息水平。项S(x, t) 描述了对神经场的外部 输入。积分项表示不同场位置之间的相互作用。足够激 活的场位置通过交互核 ω(见(2)式)参与神经相互作用。 也就是说,S形函数f(见(3)式)的输出会调制由 ω给出 的对其他场位置的激活贡献。具有斜率 β的S形函数如图 1(a)所示。一个交互核 ω的例子可能是具有短程兴奋 (由幅度因子cexc决定,其影响范围由 σexc确定)和长程 抑制(由幅度因子cinh决定,其影响范围由 σinh确定)的 对称齐次交互核[49]。四种交互核如图1(b)所示。核函数 的选择通常取决于所要表现的认知行为类型。(1)式的分 析可导出吸引子解的特性。接下来,我们将描述这些解 及其意义[5, 48, 50]。

在没有外部输入的情况下,神经场在整个场维度上 具有恒定的激活水平,等于负的静息水平h。这种非峰值 吸引子状态被称为亚阈值解sub-thresholdsolution,在弱 外部输入S(x,t)下保持其稳定性。当激活水平超过某一阈 值水平,使得侧向交互 ω(x − x′ )和sigmoid函数f(u(x ′, t))被激活时,神经场将 在不同的动力学域中被驱动。在这种情况下,由于外部 输入最大的场位置处的激活增加,场内会形成一个局部 峰值 [50]。

从一个亚阈值解开始,可能会发生检测不稳定性, 其中在具有足够激活的位置上会演化出峰值。此处“不 稳定性”一词用于表示两个稳定状态之间的转换。当某 些位置成功积累足够的激活以克服场的激活阈值时,就 会发生检测不稳定性。换句话说,该位置处输入的显著 性、特征空间的刺激强度,或当前状态下该特征存在的 确定性是显著的。场内多个位置可能具有足够的激活, 并发展出局部活动峰,从而表示底层特征空间值的存在。 图1(b)中标记为2的交互核就是一个用于检测不稳定的核 函数示例。此外,图1(c)和图1(d)给出了示例。图1(c)显 示了一个特征位置上的输入,其刺激强度(实心灰色线) 不足以激活整个场(虚线黑色线),因此该场中未表示 任何信息。在图1(d)中,刺激足够强,能够在场中产生 一个隆起,表示存在可以读取并进行进一步处理的信息。 本示例中使用的交互核是图1(b)中的第二个核函数,这 一点可通过输出在其输入位置周围呈现该核函数的形状 得以体现。

可以观察到的第二种情况被称为选择不稳定性,在 这种情况下,场中只能演化出一个稳定峰值,而在场内 不同位置的任何后续激活都会被抑制。只有足够大的激 活(即能够积累足够的激活以克服第一个峰值引起的全 局抑制以及场的阈值)才能出现并抑制原始峰值。当表 现出选择不稳定的静息场中的两个位置同时发生激活时, 激活程度较高的位置将发展为峰值,并抑制其他位置, 从而表现出对两个选项的选择。当在表现出选择不稳定 的场中,两个或多个位置具有相似的激活值时,场中的 噪声将在决定哪个位置发展为峰值的过程中起作用。激 活峰值形成的位置具有表征意义,作为表征单元,它们 表明在给定所选特征空间的情况下存在一个基本的潜在 值。图中标记为数字3的交互核 24 |莱斯·阿尔库尔迪、克里斯蒂安·布施和安吉莉卡·佩尔 f(x ) w( x) x x 特征空间 特征空间 in pu t/ ac tiv ati on in pu t/ ac tiv ati on 特征空间 fi ri ng ra te (H z) 特征空间 fi ri ng ra te (H z) (a) (b) (c) (d) (e) (f) 1 2 3 4 h h 图1. 动态神经场组件和种群激活分布。(a) S形函数。(b) 交互核示例:1) 用于模拟工作记忆不稳定的交互核。 2) 用于模拟检测不稳定的交互核。3) 用于模拟选择不稳定的交互核。4) 用于产生行波瞬态的交互核。(c) DNF内的 次激活解。(d) 在输入周围具有稳定解的场。(e) 跨越特征空间的一组调谐曲线,对刺激无响应。(f) 对特征输入(由 黑色箭头位置指示)的分布种群激活解(灰色虚线)。

一个在(1)的分析中也可以观察到的重要情况是用于 建模工作记忆的情况。当场中存在足够的交互作用以维 持输入信号,即使这些输入已经消失时,这种不稳定性 就会显现。这种不稳定性有助于建模过去做出/观察到的 决策/特征。图1(b)中标记为1的交互核函数是用于建模工 作记忆不稳定性的一种核函数示例。工作记忆不稳定性 最终导致一种自持续的激活状态,从而表征工作记忆。

与峰值可以通过引入负输入或减少该位置的兴奋性 来稳定一样,它们也可以通过在峰值位置引入负输入或 降低该处的兴奋性而变得不稳定。这被称为逆向检测不 稳定性或遗忘不稳定性。

3.2 动态神经场与种群群体活动分布

这些到目前为止讨论的初级认知形式(检测、选择和工 作记忆)作用于表征感觉刺激或运动控制信息的神经活 动模式。为了建立神经活动与外部刺激及内部运动动作 之间的联系,通常使用神经调谐的概念。动态神经场 (DNF)通过群体活动分布(DPA)[51]这一概念与神 经种群活动相关联。图1(e)给出了一个示例,其中7个 (高斯近似)调谐曲线覆盖了特征空间。DPA通过以下 公式计算
$$ DPA(x, t)=(︁∑︁tuning_x × firing_rate(i, t))︁/N, (4) $$
其中N是在位置x处调谐曲线与其在时间t的激活(放电 率)相乘的神经元数量。图1(f)展示了群体活动分布( DPA)的最终结果:给定一个特征值,多个神经元以其 放电率作出响应(实黑线)。最终结果通过群体活动分 布(DPA)可视化(虚灰线)。这些神经元之间通过其 激活产生的侧向相互作用,导致了第3.1节中讨论的场内 动态。

3.3 动态场理论中的学习

可能用于场中的输入可被处理为决策,或可用于在特征 空间中维持记忆痕迹,作为学习的简单形式。

动态神经场中的学习可以通过所谓的预形状或记忆痕迹 [5, 50]来理解。这是一种形式化方法,能够将刺激信息以 长期记忆的形式保留下来。记忆痕迹的方程为
$$ \tau_l P˙(x, t)=λ_{build}(︁−P(x, t)+f(︀u(x, t))︀)︁f(︀u(x, t))︀ −λ_{decay}P(x, t)(︁1 −f(︀u(x, t))︀)︁, (5) $$
从具有 u(x,t) 的动态神经场接收输入,并以比底层动态 神经场更慢的时间常数 τl/λbuild,向输入的吸引子解 (激活峰)逐步建立预形态场中的激活 P(x,t)。当没有激 活存在时,该累积的信息以更慢的速率 τl/λdecay 逐渐消 失,用于模拟长期记忆。其中, λdecay 和 λbuild 分别是 预形状衰减或建立的速率。常数 τl 是预形态场中学习的 时间常数。

记忆痕迹被用作其他决策动态神经场的非激活输入。 因此,它作为场的阈下解,对动态神经场中的位置进行 预塑形(偏置),使得当后续向该预塑形的动态神经场 引入特定位置的输入时,更容易产生激活。或者,向场 施加正的齐次输入(也称为增强输入)将激活场中的这 些阈下激活。

3.4 动态场理论内的比较

比较不同的动态神经场(例如,存储来自环境的当前输 入的记忆痕迹场和感知场)对于建模环境中特定且有意 义的特征的识别至关重要。除了识别环境中的特征外, 比较还对于评估发送给智能系统的动作命令完成程度是 否满足要求至关重要。为此,引入了满足条件(CoS) 的概念,用于检查某个场在一种或多种特征值[52–54]上 是否达到了预定义的激活水平。在一般情况下,当智能 系统是动作/感知循环的一部分时,动作场表示希望完成 的目标动作。该动作场通过为动作满足提供设定点来影 响智能系统。满足程度在CoS场中动态计算,其中动作/ 预塑形场持续与感知场进行比较。相比之下,在图2(b) 中,处方CoS场中的刺激与动作场中学习到的预塑形相 匹配,从而在CoS场中产生一个决策隆起,提示检测到 一次激活。

动作与感知场是输入到一个CoS领域,用于指示是否存 在匹配。如图2(a,b)所示,CoS领域增加了一个节点,该 节点给出检测与否的逻辑值。

在人体运动比较中,系统中心(CoS)存在两个主要 缺陷。首先,一旦目标状态的输入值达到最小值,CoS领 域就会被激活并超过阈值,此后输入的进一步增加将不 再被检测。然而,在某些比较任务中,我们希望检测输 入是否处于特定范围内。其次,CoS仅在特征空间中比较 一个特定位置。但在我们的使用场景中,我们希望比较 激活的整体形状。这将使我们更有置信度地确认阳性结 果表明输入具有特定形状,而不是在各处都被激活。为 此,我们扩展了系统中心的概念,并提出了序列的范围 (RoS)、满足度量 (MoS)和序列的序列 (SoS)的 概念。

在此RoS公式中,动作场被用作上CoS场和下层 CoS场的预激活。上CoS场还通过一个全局负输入进行预 激活,其值等于期望范围 −R/2。同样,下层CoS场通过 一个全局正输入进行预激活,其值等于期望范围R/2。这 使得在度量空间中能够更早地在下层CoS中检测到特征。 此外,由于上CoS场会激活并继而使RoS神经元去激活, 因此可以比较一系列的激活水平。这种去激活有助于检 查下一个特征,这在比较如伸手动作这类时间连续运动 时是一个重要功能。RoS功能的示意图如图2(c)所示。

MoS概念将CoS的概念扩展到整个度量空间,而不 仅仅局限于一个特定位置。通过将预形状输入取反并将 其输入到CoS场中,同时将该场的静息水平设置为零, 即可实现MoS。这使得只有当输入超过预形状值时, CoS场才会产生激活。最后,可以通过对CoS场的激活进 行求和,得到输入与预形状之间的相似性。

最后,ShapeofSatisfaction(SoS) 是 RoS 和 MoS 的 结合。具体而言,SoS 即为 RoS,但不再使用 CoS 来表 示上层场和下层场,而是改用 MoS。SoS 允许在一定范 围内将输入刺激的形状与预形状进行比较。此外,SoS 允许在比较中更重视输入的形状,而非其达到预定义的 激活水平。

3.5 动态场理论中的预测

到目前为止,我们讨论了动态场理论(DFT)的若干认 知特性,这些特性可作为任何认知架构中的构建模块。 我们扩展了系统中心(CoS)的功能,以更好地适应动 作识别的应用。然而,DFT 内部的预测能力在一定程度 上是有限的。但在动作理解的在线动态应用中,这种能 力至关重要。因此,在下文中,我们论证了需要一种能 够在特征空间中向前看并提供预测能力的机制。一种能 够提供此类能力的瞬态存在于行波中。大脑皮层片中行 进激活脉冲的动态行为已被观察到[55, 56],并在动态神 经场(DNF)中进行了建模[48]。神经场中的此类动态 已被用于智能行为生成[57]以及影响机械臂控制[58]。 此后,关于神经场中行进隆起的进一步研究已经开展, 并对其碰撞问题建立了模型[59]。该瞬态的数学表述见 附录D,如[57]所述。实现行波所需的核函数示例如图 1(b)所示(标有数字4的黑色虚线)。

我们依赖本节讨论的不同稳定状态及其不稳定性来 建模在CARS、TARS和可供性逻辑中广泛使用的认知构 建模块,这将在第5节中详细讨论。然而,首先我们介绍 为测试所开发系统而设置的动作识别任务。

4 动作理解任务

对于人类动作理解任务,我们在实验室中搭建了一个公 寓环境,并邀请了十名参与者执行高层级场景以及我们 称之为基元的简短、精确的动作。这些基元的目的是为 我们的系统提供关于简单动作如何执行的学习示例。多 个简单动作基元(例如,向前走、转向、向前一步、伸 手、抓取、拉等)的串联构成一个高层级意图。基元动 作可分为两大类:操作动作和移动动作。记录的移动动 作包括:步进(向前、向左、向右和向后)、行走(向 前和向后)、转向(右/左,90/180度)、站起和坐下。 动态动作理解 | 27 动作场/预形状 动作场/预形状 度空量间 CoS领域 对⋯⋯的感知 CoS/刺激 环系境统/ 度空量间 | ||度空量间| | —|—|—| ||度空量间| 度空量间 | 度空量间|||度空量间| | —|—|—|—| | 度空量间|||度空量间| | 度空量间|||度空量间| 环系境统/ CoS领域 对⋯⋯的感知 CoS/刺激 ac tiv ati on ac tiv ati on ac tiv at io n ac tiv at io n ac tiv at io n ac tiv at io n (a) (b) 检激测活 检激测活 非活跃神经元 活跃神经元 动作场/预形状 度空量间 a c ti v a ti o n 下层CoS场 度量 空间 a c ti v a ti o n 对⋯⋯的感知 CoS/刺激 度量 空间 a c ti v a ti o n (c) 检激测活 神经元 上CoS区域 度空量间 a c ti v a ti o n 检测 激活 神经元 神经元 u l 图2。系统中心(CoS)方法的示意图。(a) 没有来自CoS感知的相应输入的预形状CoS领域。(b) 匹配输入导致 CoS领域中的激活,该激活可用于激活神经元。(c) RoS(序列的范围)概念的示意图。预形状和刺激被用作下层场 和上层场的输入。此外,范围边界在场内进行了说明。

动作场/预形状 度空量间 a c ti v a ti o n 下层CoS场 度量 空间 a c ti v a ti o n 对⋯⋯的感知 CoS/刺激 度量 空间 a c ti v a ti o n (c) 检激测活 神经元 上CoS区域 度空量间 a c ti v a ti o n 检测 激活 神经元 神经元 u l 图2。系统中心(CoS)方法的示意图。(a) 没有来自CoS感知的相应输入的预形状CoS领域。(b) 匹配输入导致 CoS领域中的激活,该激活可用于激活神经元。(c) RoS(序列的范围)概念的示意图。预形状和刺激被用作下层场 和上层场的输入。此外,范围边界在场内进行了说明。

示意图0
示意图1

ap‐ 动作理解 | 27 动作场/预形状 动作场/预形状 度空量间 CoS领域 对⋯⋯的感知 CoS/刺激 环系境统/ 度空量间 | ||度空量间| | —|—|—| ||度空量间| 度空量间 | 度空量间|||度空量间| | —|—|—|—| | 度空量间|||度空量间| | 度空量间|||度空量间| 环系境统/ CoS领域 对⋯⋯的感知 CoS/刺激 ac tiv ati on ac tiv ati on ac tiv at io n ac tiv at io n ac tiv at io n ac tiv at io n (a) (b) 检激测活 检激测活 非活跃神经元 活跃神经元 动作

5 动作理解系统架构

本研究中提出的系统受到第2节所讨论的情境化认知和神经 科学领域研究发现的启发。具体而言,两个系统的集成均遵 循 智能行为源于智能体与其环境之间的动态耦合。此外, 我们的方法受到一种认知描述的启发,即认知是具身化 的,意味着认知产生于适应性动作之中,而环境中的物 体则根据其动作可能性和可供性被表征 [18, 61, 62]。当 在环境中观察执行主体的行为时,观察代理利用自身的 身体来理解被观察代理的行为 [63]。同时,观察代理直 接从环境中感知信息,并利用上下文来进行理解和相应 决策。事实上,社会情境认知的一个重要主题正是:我 们周围主体的运动和环境状态会被映射到感知者的身体 上 [12]。我们将在各个系统的具体章节中进一步阐述其 动机。具体而言,我们对人类动作理解建模的假设如下: 机器人(智能)系统将其视角投射到待理解动作的执行 主体的视角上。机器人直接相对于执行主体的身体以及 环境(物体及其属性)来感知可供性。该主体的大脑控 制身体以实现对物体的自我定位并执行操作动作。大脑 还可以观察自身或其他执行主体所执行的动作。我们在 图3(a)中展示了这一工作流程的示意图。

受认知研究和神经科学启发的抽象模块与连接,如 图3(a)所示,被转化为图3(b)中提出的系统及其连接关 系,其中展示了感知模块(身体和(虚拟)物体)、 CARS、可供性逻辑以及TARS之间的连接。预形态模块 (代表长期记忆和经验)建议未来由虚线框表示的运动 控制/本体感觉模块替代。

正如引言中所讨论的,理解他人动作的能力是理解 以目标导向物体为操作对象的动作可能性,以及将观察 到的运动与记忆中的运动类别经验进行时空比较的组合。 来自环境和被观察智能体的信息被投影到观察者的身体 上。这种处理发生在body模块中。我们在此模块中的主 要假设是,演员的动作被视为观察者自身的行为,而演 员周围的物体也被投影到观察者周围[11]。我们在第5.1 节中解释了我们用于提取神经启发特征的架构。当演员 的动作指向某个物体时,情境化动作识别系统(CARS) 会利用操作的可能性信息 动态动作理解 | 29 Body 大脑 环境 可供性 观察到的 运动 控制 TARM 骨骼或片段轨迹 TARM body CARM CARM 物体 虚物拟体 环境 预ape 可逻供辑性与 连接场性 (a) (b) 执行的动作 运动控制 | ||||||| | —|—|—|—|—|—|—| | 本体感觉|本体感觉|本体感觉|本体感觉|本体感觉||| | 本体感觉|本体感觉|本体感觉|本体感觉|本体感觉||| RS TA RS A C 图3. (a) 基于情境可供性输入以及轨迹输入信息的大脑、身体与世界或环境之间交互的示意图。(b) 基于上下文 和轨迹的动作识别系统的连接。带阴影线的连接表示可能存在的连接,但本文尚未对其进行建模。

流动特性(例如手腕/骨盆的速度和方向),并预测将要 操作的物体。上下文动作识别模块(CARMs)的实现见 第5.2节。物体的可供性(由可供性逻辑块推理得出)可 揭示该运动的意义,相关内容在第5.4节中介绍。轨迹动 作识别模块(TARMs)在预形态模块的帮助下,加载先 前经历/学习过的类似运动的记忆,并将观察到的运动与 该记忆进行比较。每个TARM代表一个特定动作,因此 通过组合多个此类模块构成TARS。内部模拟也可以通过 动态运动控制块(如图3(b)中的虚线框所示)来实现, 而非当前存储在预形态模块中的长期记忆。使用类人运 动控制器是我们正在进行的研究课题,将在未来的出版 物中整合到完整的动作理解架构中。如果动作记忆最终 得到验证,则表明该动作正在被观察,系统将重置以等 待下一个运动。我们使用动态神经场(DNFs)实现了该 架构,其中图3(b)中的每个模块代表相互连接的神经群 体。接下来的章节将详细讨论构成该架构的各个系统。

5.1 从运动体到生物启发特征

观察者通过感知执行主体以及环境状态(即演员周围物 体及其与这些物体的互动方式),来推断该演员的动作 心理状态、(动作)计划和意图。接下来,我们将阐述 在建模对运动身体的感知时所做出的决策,这些决策与 神经导向研究中所揭示的内容保持一致。具体而言,我 们将讨论关于身体如何被感知的选择、所需的变换、为 AU任务提取的特征,以及这些特征如何在与动态场理论 (DFT)相兼容的神经群体方法中加以利用。

5.1.1 嵌入性与自我中心坐标

根据嵌入性概念,观察代理将所感知的执行主体的骨骼 投影到自身。研究表明,生物运动可能通过在自我中心 坐标系上的投影来感知,这可能有助于引导行为和理解 [11, 33, 64, 65]。类似地,神经科学和镜像神经元的研究 也证明了自我中心动作理解的存在[41, 66]。因此,我们 动作理解架构中的第一步是将动作执行者的参考系投影 到观察者的参考系上。此外,环境以及环境中的物体也 被转换到观察者的参考系上 30 |莱斯·阿尔库尔迪、克里斯蒂安·布施和安吉莉卡·佩尔 参考。期望的变换如图4(a)所示。

5.1.2 身体关节伸展和投影相对角度特征

此外,在观察一个执行主体时,观察者的视觉系统会关 注该执行主体的关节 [67]。在所有关节中,研究表明重 点关注上身关节,即头部、左右手腕 [67]。在我们的工 作中,还整合了骨盆关节以及左右踝关节,这些关节对 于理解移动动作同样至关重要。

从这些关节中提取的位置信息随后被投影到观察者 的横断面和矢状面上(在将演员的整个骨骼变换到观察 者身体坐标系之后)[68]。我们通过数学方法实现了这 些变换,而未考虑其背后可能涉及的神经机制。然而, 文献中也讨论了具备变换能力的DFT系统[69],这些系 统也可扩展用于运动感知中的自我中心坐标系变换。

根据前文所述,我们决定从投影视图中提取两种特 征类型用于动作识别。第一种特征类型是身体关节伸展。 它是一种非圆形特征(线性特征空间,0‐100%),用于 测量不共享同一骨骼的两个关节之间的伸展百分比。 例如,当手臂完全伸展时,手腕‐肩部身体关节伸展为100%, 而当肘关节呈90度角时,则为50%。为简化计算,我们 采用了[70],中给出的平均人体尺寸,并计算了一名1.8 米高男性个体的完全伸展值。第二种特征类型是投影相 对角度。它是一种具有圆形特征空间(0–360度)的特征, 用于测量两个关节之间的投影相对角度。这两种特征类 型均被描述为视图中心的,因为它们依赖于观察者相对 于所感知物体(不同关节)的位置。视图中心表示法是 两种主要描述类型之一(另一种是物体导向表示法), 被建议用于建模从三维物体在视网膜图像上的投影中提 取信息的能力[71–73]。总体而言,在合理选择不同关节 的基础上,本文提出了39种不同的特征,用于计算任意 运动中的特征值,涵盖不同关节及不同平面投影。完整 的特征列表见附录A。多种组合 这些特征的具体选择取决于动作类别以及该特定运动中 关节参与的程度。在我们的研究中,通过多个示例学习 这些特征的时间演化,以构建记忆,从而预形态一个用 于比较的动态神经场。每类动作都学习一个对应的记忆, 该记忆可被视为一条记忆化的跟踪轨迹,在TARM中将 从观察到的动作中提取的特征与之进行比较。

上述两种特征的具体选择受到关于有意识的伸手运 动背后神经机制研究的启发[74–76]。这些研究表明,伸 手动作是从方向调谐细胞的神经群体中解码出来的。每 个方向调谐细胞群都调谐至一个特定的偏好运动方向。 神经群体中的每个细胞群通过一个指向该细胞群特有偏 好运动方向的向量对整体群体做出贡献,并由细胞活动 变化加权。群体最终的求和称为神经群体向量,其指向 接近观察到的运动方向。神经群体向量的强度也被证明 与运动的速度或幅度相关。镜像神经元系统表明,参与 动作生成的神经机制与参与动作感知的机制相同。因此, 用于动作理解的特征应映射到运动的方向和幅度(距离) 上[41, 66]。投影相对角度是运动方向的一般表示,而身 体关节伸展则表示运动幅度(距离)的计算。前述特征 应以符合神经机制的方式作为输入提供给DFT系统,并 利用DPA中的公式进行表达,此过程如图5所示。

5.1.3 群体活动分布(DPA)特征表述的参数选择

以最优响应值为中心的调谐曲线可以使用不同的形状 [51, 77]进行建模。例如,它们可以是高斯调谐曲线、余 弦调谐曲线或S形调谐曲线[78]。每条调谐曲线的形状和 参数通常取决于特定神经元和刺激。我们重点参考了 Perret等人在[79]中的研究以及Newsome和Salz man在[80]中关于伸手运动中的放电模式的研究,我们 的工作基于这些研究。我们提取了他们的结果,并在其 提出的函数基础上设计了我们的高斯函数 代表运动敏感神经元的调谐曲线。更多细节见附录B。 对于我们的方向循环特征,我们选择了八个等距的 神经元来表征特征空间。具体而言,第ni=fi,i= 1, 2,…,8个神经元的最佳响应为f = {0 ∘, 45 ∘, 90 ∘, 135 ∘, 180 ∘, 225 ∘, 270 ∘, 315 ∘}。循 环特征的形状(调谐曲线)建模自以观察者为中心的窄 调谐细胞响应[79]。对于距离的线性特征空间,我们使用 了六个神经元。每个神经元的最佳响应在完整的特征空 间上等距分布 0 −100%。每个神经元的调谐曲线采用具 有较宽标准差的高斯函数进行建模。这些高斯函数通过 调整标准差以逼近附录B中讨论的拟合调谐曲线的结果, 并最终被采用,因为它们是动态神经场框架中的标准模 型[50]。从离散神经元到连续特征空间的转换可通过群体 活动分布(DPA)描述,并作为输入应用于我们的动态 场理论架构中。图6展示了一个示例。呈现了一个手臂构 型的刺激,其投影相对角度为 150 ∘ 。图6(a)中的灰色 虚线表示种群的整体响应,而单个黑色线条则表示种群 中各个神经元的单独响应。图6(a)显示的是特定时间步的 响应,而图6(b)则展示了神经场中随时间演变的过程。

5.1.4 求和

我们提出了受生物启发的运动感知模型,该模型作为 TARS的预处理模块。另一方面,CARS将末端执行器/骨 盆的方向和速度作为输入。构成CARS的CARM将在下 一节中讨论。 我们选择用于编码二维轨迹的特征(如图6(b)所示), 其依据来自神经元最优响应研究[68]。这些研究表明, 观察到的物体(在本例中为手和踝关节)的运动方向和 移动距离在神经元层面被编码,用于运动感知[81]。光流 同样编码了运动兴趣点的方向和距离向量,已被证明对 生物运动感知具有重要意义。这一点也与被认为用于编 码运动指令的内容(运动方向的首选群体向量)相一致, 进一步支持了用于动作生成的编码方式同样被用于动作 识别的观点[76]。这些二维轨迹将被保存为 长期记忆或在线提供用于与已保存的记忆进行比较。已 保存的长期记忆(预形态)代表观察特定动作类[68]的 经验。然而,由于动作数量可能很大(一次加载用于比 较的记忆数量在计算上可能非常昂贵),我们在TARS中 进行了比较,但我们提供了CARS,我们将在下一节中详 细讨论。

5.2 上下文动作识别模块

在本节中,我们提出了一种有助于动作理解的上下文系 统。该系统通过限制搜索空间并获取运动的上下文来实 现这一目标。本节中的假设是,智能系统可以通过观察 末端执行器(手)运动与附近物体及其动作潜力之间的 关系,从人类行为者执行的目标导向运动中提取上下文。 在本小节中,我们提出了一个注意力转移模型,并解释 了如何使用动态神经场(DNFs)实现该模型。

5.2.1 动机与概述

研究表明,眼动会对目标导向运动做出反应。此外,观 察者的注视与演员的手部之间存在预测性关系[82]。具体 而言,在CARS中,我们对(机器人)观察者眼睛的注意 力转移进行建模,即从演员的手/臀部转移到运动所指向 的物体。CARS具有额外的重要性,因为机器人观察者无 法在不使用昂贵且侵入式的注视检测传感器的情况下感 知注视的变化。基于[82],的研究,由于观察智能体的注 视会跟随演员的末端执行器,因此CARM所选用的特征 是演员末端执行器的光流信息。此处的光流特指运动方 向跟踪信息。包含演员末端执行器(和臀部)的运动方 向和速度的光流信息[83]被用作CARM的输入。 该信息被输入到移动形状模块中,如图7所示,然后 该模块再输入到一个神经场中,该神经场表示演员执行 其动作的环境。 该移动形状场最初位于末端执行器的起始位置,并具有 特定的限制(由限幅输入模块设定),在到达该限制之前可 以移动 动态动作理解 | 33 (a) (b) 0 45 90 135 180 225 270 315 360 150 圆形特征空间,角度(单位:度) n o r m a l i z e d r e s p o n c e 0 1.8 时间(样本) 圆形特征空间,角度(单位:度) a c t i v a t i o n 图6. (a) 给定观察到的投影相对角度为150度时,特定时间步的DPA响应。(b) 前进行走动作中骨盆与右脚之间 的投影相对角度在x −y‐平面内的二维记忆轨迹。

逐渐消失。环境神经场由环境中可操作物体的位置( 来自物体模块)预先形成形状。当从执行者的手部发出的 峰(位置由位置输入模块提供,该位置使用光流输入模 块计算出的手部方向/速度)持续击中预形成的某个位置 时,该神经场被激活。这些发射出的峰在形状神经场模 块中计算得出,其速度通过调节非对称核模块中的参数 进行控制。“预形成”一词在此表示:物体所提供的激 活程度不足以使神经场达到激活状态,因此这些位置上 的场被称为亚激活或预形成。从这个意义上讲,环境模 块并不直接编码环境本身,而是编码执行者与环境之间 的交互。接下来的两段将解释预形成环境场的不同物体 以及中心移动形状模块的功能。到目前为止,我们已经 概述了CARM的构建模块。接下来,我们将详细说明对 象输入模块和虚拟对象输入模块、中心移动形状模块及 其输入,最后是环境场模块。

5.2.2 物理物体和虚拟物体

输入到环境场中的物体信息可以编码物理物体,这些物 理物体在被观察到的相同x、y位置预先塑造该场。同样 的概念也扩展到了移动动作(例如,行走、转向、向左 迈步、向右迈步等)。在演员周围想象出虚拟物体,并 设想运动方向 由脚或手朝向这些虚拟物体的动作将读取它们的虚拟可 供性,以提示可能的动作。例如,向前移动的移动动作 可以通过脚踝朝向前方虚拟物体的运动方向来理解,以 此类推。尽管使用虚拟物体是对如何理解移动和自由空 间运动的一种简化,但它使得这两类运动能够被赋予虚 拟可供性,并整合到整体架构中。

5.2.3 移动形状模块

移动形状模块在图7中详细显示。移动形状模块的输 入包括光流输入、位置输入以及限制输入。移动形状模 块的输出是形状记忆场中的记忆痕迹激活。移动形状模 块包含两个场。第一个场是形状场,其接收非对称核的 计算参数作为第一输入,以及高斯均值的计算值作为第 二输入。第二个场是形状记忆记忆痕迹,用于累积形状 场的输出。这两个场均定义于度量空间场中,覆盖以米 为单位的即时环境空间。 移动形状模块对行进峰的记忆痕迹进行建模,该记 忆痕迹在时间上逐渐消失。行进峰起源于场中的特定位 置,并沿由光流输入所给定的方向移动。光流输入表示 特定关节(例如左腕)的光流。光流是一种二维输入, 包含幅值和方向分量。该输入用于塑造 莱斯·阿尔库尔迪、克里斯蒂安·布施和安吉莉卡·佩尔 输出 环境 场 | 物体|环境||| | —|—|—|—| | 物体|环境||| | 物体|||| | |||| 位置 输入 限制 输入 光流 输入 高源斯峰值 形状 | |场| | —|—| | |场| | |场| | || | || 形状记忆 记忆痕迹 asym. kernel asym.核函数 幅足度够高 移动形状 o 虚拟物体 图7.上下文动作识别模块的架构 形状场的非对称交互核。非对称核允许形状场相对于光 流输入进行移动。 图7中的形状场有两个输入:一个源(即二维高斯峰) 输入和一个限制输入。该二维高斯峰的位置由某个关节 (例如手腕)的位置p(t)控制——相对于形状场的尺寸 (即此处同样遵循自我中心坐标),并且其幅度始终保 持足够大,以在形状场中引起持续激活。此输入用于表 示特定关节的位置。由源输入与非对称核函数组合共同 定义了高斯峰在形状场内的移动。这种设置实现了以下 激活行为:一个激活峰会周期性地从分离于源输入位置, 并沿光流方向移动,直至消失。形状记忆轨迹保存了形 状场的激活状态。需要注意的是,形状场的输入始终处 于激活状态,因此可同时存在多个移动峰。根据光流输 入的不同,可在形状场内生成不同的移动形状。 由于不同的激活峰在给定光流输入的情况下,从源 输入周期性地分离出来,观察到很难控制这些峰的移动 距离及其消失时间。因此,引入了限制输入。该限制输 入通过预形状(使用二维高斯函数)对形状场进行塑形, 以限制行进峰允许移动的距离。从而,仅对激活峰允许 行进的区域进行充分的预形态设置。 光流输入的计算方法如下: o(p(t))=[︃1 0 0 0 1 0]︃ ·(p(t) − p(t −1)). (6) 限制输入是一种预形状,其实现方式为二维高斯函 数 g(x,y,μx(t), μy(t)),其最大振幅位于当前的位置输入 p(t),如公式(7)所定义。因此,期望值μ等于位置输入 p(t)。根据移动形状场的静息水平,必须将该高斯函数偏 移c,以防止在场内产生激活(因为它应预设行进峰可到 达的位置): g(x, y, µx(t), µy(t))= A · exp(︂−(︂(x − µx(t))2 2σ2x +(y − µy(t))2 2σ2 y)︂)︂+ c. (7) 非对称相互作用核wasym(x, y,o) 的计算如(8)中所示。 基底形状由一个二维高斯函数定义,如(7)中所述,但没 有偏移c: wasym(x, y, o)=g(x, y, µx(t), µy(t)) + ox(t) ∂g(x, y, µx(t), µy(t)) ∂x + oy(t) ∂g(x, y, µx(t), µy(t)) ∂y . (8) 移动形状激活如图8所示。该图展示了一条手臂向右 运动。在移动形状模块中,这将转化为图中所见的波浪。 一个以手腕位置为中心的移动峰会根据光流信息进行传 播。随着运动产生的噪声会逐渐消失,而累积波则会不 断建立激活,如图8所示。图8中的痕迹可能呈现复杂形 状,原因有两点:首先,movingshape随着手腕位置持 续变化而动态累积输入;其次,CARM中的记忆痕迹会 根据场的时间尺度保持场内的激活状态,从而允许出现 复杂的形状。

示意图2
示意图3
示意图4
示意图5
示意图6
示意图7

5.2.4 环境场

最后,环境场是一个决策场,它根据预塑形该场的(虚 拟/物理)物体以及移动形状模块的输出(也提供预塑形 输入)进行选择。该场定义在表征环境的特征空间上 (以米为单位)。输出是预测被观察智能体将要操作的 物体的位置。需要注意的是,在我们的实现中,物理物 体同时编码了家具和可操作物体。虚拟物体编码了身体 周围用于方向和幅值(运动强度)检测的位置。 环境场中的稳定峰值表明了演员打算与哪个物体进 行交互,以及该交互正在(或将会)在何处进行。对于 虚拟物体而言,它指示了正在进行的移动行为类型以及 运动的强度/方向。可以读取该特定物体的可供性,并对 TARS进行预形状,进而从运动层面上验证可供性的类型。 我们将在下一节讨论构成TARS的模块。

5.3 轨迹识别模块

当执行主体执行动作时,其运动的运动学提供了大量信 息,人类观察者可以利用这些信息来识别该动作。就运 动而言,人类动作是连续变化的。也就是说,对于相同 的动作,一个人在多次执行中会表现出不同的运动方式。 完成动作所需的时间 相同动作在不同试验之间以及不同个体之间也会有所变 化,这取决于任务和演员的运动学特性。在本节中,我 们提供了一种用于动作识别的动态神经场运动轨迹比较 模型,该模型独立于环境信息而运行。构成轨迹识别模 块的这些不同模块如图9所示。我们解释了如何实现时空 不变性,并探讨了如何利用动态神经场的内在特性,动 态调整存储记忆与观测数据之间的匹配,使其有“更大 的机会”获得正向匹配。我们还讨论了生成和处理这些 存储记忆(模板)的实现方法。 根据模板匹配模型,生物系统依赖于由身体静态视 图产生的特征流(刺激)来感知和分类运动模式[29]。这 些特征可被视为特定身体构型的形态线索,类似于[30]中 提出的快照概念。在本研究中,它们被称为感兴趣快照。 特定快照序列的存在编码了特定的动作/运动。我们将此 序列称为兴趣序列。然而,为了进行比较,我们需要一 个参考的兴趣序列来进行匹配。我们依赖一组存储记忆 (模板)来观察不同动作,并结合一个比较模型。模板 是在我们的动态神经场模型中通过在表示模板的动态神 经场中随时间激活运动特征而学习到的。此处对动作的 理解与其他依赖于特征向量序列的单层基于范例的序列 方法相似。 36 |莱斯·阿尔库尔迪、克里斯蒂安·布施和安吉莉卡·佩尔 执行分类[6]。我们在第5.3.1节中讨论模板生成。该模板 必须具有适应性,以应对自主单元的挑战,为此我们在 第5.3.3节中提出了动态模板解决方案。根据之前的概述, TARM可分为输入侧和预形状侧,它们在comparison模 块内相互比较,这一点在第5.3.2节中进行了讨论。 由于讨论的自主单元(AU)所面临的挑战,为了正 确识别,应控制输入与模板之间的速度差异,这是通过 第5.3.4节中详细讨论的控制器模块实现的。具体而言, 控制器模块控制行波在预形态场中传播的速度(以及时 间间隔),同时在线输入刺激,并观察运动过程。

5.3.1 模板生成

这里的核心机制是从多个样本中累积记忆痕迹。这些以 特征格式表示的样本在具有记忆痕迹的场内进行累积。 如第5.1节所述,这些特征编码了头部或髋部(参考点) 与手腕和脚踝(末端执行器)在矢状面、冠状面和横断 面上的姿态之间的自我中心距离和角度[64, 67, 68, 84]。 选择手腕和脚踝是因为它们确实移动最多[85]。被观察代 理被投影到观察者的身体坐标系上,以实现视图(空间) 不变性,并对动作识别背后内部模拟进行建模[33]。第 3.2节中讨论的群体活动分布(DPA)模型被用来模拟一 组对角度和长度敏感的神经元,其离散值类似于在人类 神经系统中观察到的情况[75, 83, 86]。这些对角度/长度 敏感的神经元群体随时间的激活会触发一个动态神经场, 用于学习预形状(模板),或直接作为输入用于比较。 模板是通过在动态神经场(DNF)内采用类似均值 的方法生成的,该方法基于某一动作类别的多个特征示 例(如第5.1节中讨论的BodyJoint Extension特征和 Projected RelativeAngle特征)。图10所示的模板生成过 程建模如下:将单个观测结果(以刺激轨迹形式)追加 到已累积的运动观测中。我们的动机源于这样一种直觉, 即一个动作被完整且连续地观察到,并动态地添加到整 体的过往经验中。从数据集中记录的某一观察动作的多 个示例中,我们随机选取一个样本并在刺激 以这种形式进行,在选择样本模块中完成。样本的长度 (时间)在预处理模块中被归一化为预先计算的长度, 该长度代表此特定动作类别的平均长度。然后将此输入 馈入两条通路,这两条通路再次合并到一个动态神经场 (DNF)中。上层通路将样本乘以一个增益,而下层通 路则在记忆中累积观测值,并在其输出后乘以一个增益。 这些增益对于学习过程至关重要,它们定义了学习到的 信息如何被改变,以及何时选择新样本来进行学习。两 条通路合并到一个从二维投影到一维的动态神经场( DNF),使得时间轴被压缩,最后对其激活值进行求和。 随后定义一个反馈信号(从比较模块到控制器模块), 将该激活求和值(作为当前示例长度百分比的代理)与 一个阈值(设定为约0.95)进行比较,以决定是否过渡 到学习新的示例。最终的模板会在所有示例学习完毕之 前持续在记忆痕迹场中累积。

5.3.2 比较模块

由于学习到的预塑形在时间上可能比观测到的动作明显 更短或更长,我们提出使用移动峰值来解决时间可变性 问题。一个峰值将在预形态模板和感知动作的动态神经 场中传播。预形态场中的峰值将跳跃至特征空间中具有 快速变化的special位置,这些跳跃本质上是快速的。只 有当输入场中观察到代表感知动作的相同特征时,预形 态场中的峰值才会跳转到下一个位置。这一检查在比较 场中进行,如图9所示。随着预形态场中的波越来越接近 结束,我们越能确定该预形态正确地表示了我们认为的 动作。 这种从一个跳跃到另一个感兴趣快照的行为,是通 过允许波以高速向前传播,并在预形状中检测感兴趣的 区域来确定的。这些感兴趣的区域要么是过零区域,要 么是极值/鞍点。感兴趣快照通过在称为过零场的神经场 中合并高斯波输入和原始预形状作为第二输入,在线计 算得到。第一个输入是高斯波输入,它在特征空间中的 位置0处为中心,并在时间上延展。使用动态神经场的检 测方法如图11所示。这两个输入在场内的交集处激活神 经场; 选择样本 反馈 样本 输入 记忆 记忆 跟踪 | |增益 (•)| | —|—| | |增益 (•)| | |增益 (•)|| | —|—|—| | |增益 (•)|| | |增益 (•)|| | 投影|| | —|—| | 求和 (•)|| | —|—| | 求和 (•)|| 2D 场 场 预处理 2D 2D 2D 1D 图10.Syste m 架构以生成基于轨迹的temp lates。

该激活旨在零过点附近发生。在计算过零场h的静止水平 时需特别注意,以确保当两个输入重叠时发生激活。在 线计算至关重要,因为允许在比较过程中对感兴趣区域 进行移动和调整,从而实现观测值和保存值在特征上的 最佳匹配。将该过零场投影到特征值上可得到样本出现 过零点的时间。这可以进一步在时间上扩展,并与原始 预形状一起作为输入,输入到表示兴趣序列的场中。鞍 极值点的计算方法类似于过零点,但需先对预形状进行 初始导数运算,该导数运算是离线完成的。感兴趣快照 的序列称为兴趣序列。图12展示了过零检测兴趣序列的 一个示例。 在预形状中的快照与连续变化的刺激输入之间的比 较发生在如图9所示的比较模块中。此处使用了第3.4节 中讨论的比较模块。利用SoS(序列的序列)概念进行比 较,可以实现对形状的比较。此外,如第3.4节所述,在 SoS中引入RoS(序列的范围),提供了一定程度的鲁棒 性,使得一定范围内的激活最终都能导致成功的比较。 比较的结果(匹配/不匹配或连续比较)被用作反馈信号 发送给控制器模块。

5.3.3 动态模板

其核心机制是根据TARM中比较的成功情况,在 preshapefield内动态改变不同可用参数的值(例如预形 态场的静息水平或交互核短程兴奋的值)。所采用的 dynamic templates方法背后的一整套工具的动机有两个 方面:首先,它被认为是一种实现更快成功比较的方法; 其次,它是一种允许模板泛化的方法。 随着观察到特定动作的置信度增加,动态预形状对 动作识别过程的影响也随之增强,从而补偿预形状与刺 激之间的空间差异。尚未与之比较的预形状部分将被调 整以适应先前观察到的运动。该补偿是根据感知运动的 过去信息计算得出的。这也允许进行… 在学习预形状模板时观察到的不完美性,并允许刺激与 预形态之间存在一定的空间差异。这有助于模板的泛化。 尽管由于使用动态模板可能导致误报成为一种障碍,但 使用CARS会限制加载的预形状数量,从而减轻这一缺点, 如结果部分所示。 我们提出的动态预形状解决方案分为两个步骤。变 化预形状步骤旨在调整预形状生成方法中的参数。这些 调整可以限制所使用的样本,或操控场以表现出不同于 生成类似均值刺激轨迹的行为。变化预形状步骤会完全 且动态地改变预形状的形状。 第二个适应预形状步骤不会改变预形状。它会根据 到目前为止从刺激中看到的信息,通过在特征空间中移 动当前预形状或轻微影响其形状来对其进行调整。该形 状通过在DNF内部通常执行的卷积进行更改,使用的是 经过调整的二维高斯核。二维高斯核的宽度根据整个轨 迹比较模块的置信度值而变化。这种对预形状的动态调 整使得在我们对动作分类具有更高置信度时,更有可能 实现匹配。

5.3.4 控制器模块

图9所示的控制器模块接收三个输入。这些输入分别是刺 激场和预形态场中移动波的时间位置,以及比较模块的 结果。该模块的输出控制着移动预形状波的速度。此控 制器模块完全是算法实现,未使用神经场实现。此外, 我们假设对于该控制模块而言,输入刺激的长度以及当 前观察动作中刺激的时间位置是未知的。这是一个合理 的假设,因为我们不知道演员的动作何时结束,也不

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值