基于奖励学习行为满足条件

部署运行你感兴趣的模型镜像

学习基本行为的满足条件

摘要

为了执行动作序列,一个自主智能体必须能够识别出前一个动作的预期最终条件已经达成。在之前的研究中,我们展示了具身智能体如何通过一种用于行为组织的神经动力学架构生成动作序列,其中每个动作都包含一个意图和满足条件。这些组件由动态神经场表示,并与机器人智能体的电机和传感器相耦合。在此,我们展示如何学习预期动作与其结果状态之间的映射关系,而不是预先设定。我们采用基于奖励门控的关联学习方法,通过多次外部验证目标达成的实例,逐步学习在目标达成时所期望出现的状态。学习完成后,无需依赖外部奖励即可识别预期结果是否已实现。该方法基于动态神经场实现,并在真实的E‐Puck移动机器人和模拟的NAO人形机器人上进行了测试。

关键词

神经动力学;认知机器人学;行为组织

1 引言

最近,我们中的一些人提出了一种基于动态神经场[15, 16]的有意行为计算神经动力学模型。有意行为这一名称源于塞尔的意向性理论[24]。两个控制组件对于任何有意图的动作都是至关重要的:一种对意图本身的感知表征,这种表征还必须有助于指导运动系统(例如目标物体的中央凹位置),以及一种用于指示动作的目标或目的已成功实现的满足条件的表征。

在我们的模型中,有意行为通过神经动力学控制器中的基本行为(EB)来表示,每个基本行为均由意图的神经动力学实现和满足条件(CoS)构成。该模型采用动态神经场(DNFs)框架,将意图和CoS实现为定义在连续参数空间[17, 19, 21],上的吸引子动力学,并将其与具身智能体的感觉和运动系统相耦合。意图DNF表征当前动作的感觉运动参数,并引导智能体的注意力转移和运动。CoS DNF接收感知输入,当该输入与来自意图 DNF投射的内部偏差发生重叠时被激活,该内部偏差指定了动作的期望最终状态。复杂动作需要多个较简单的 EB之间进行协调,使得每个EB按适当顺序被激活,在实现其行为目标所需的整个过程中持续保持活动,并在目标达成后最终被关闭。

我们此前已展示了在此用于行为组织的神经动力学框架中,如何通过将神经动力学架构与人形机器人[15, 16]的传感器和电机相连接来生成目标导向动作序列。我们还展示了如何通过将神经动力学架构与强化学习[26],相结合,并利用实现为神经动力学项目与顺序工作记忆[12]的资格迹,从延迟奖励中学习基本行为(EB)序列。在先前的研究中,基本行为的结构——即意图与编码动作预期结果的意识场(CoS)DNF之间的耦合——是在神经动力学架构设计期间预先设定的。例如,“搜索颜色”这一基本行为的意图编码了目标物体的颜色,该颜色指向特定的机器人的注视方向应当有所指向。该基本行为(EB)中意图与意识场(CoS)DNF之间的连接权重被设定为使意识场(CoS)DNF对该颜色具有敏感性,而该颜色出现在摄像头图像的中央区域。在本文中,我们探讨了如何在神经动力学框架内,通过由奖励驱动的联想学习过程,自主地学习从活跃意图到意识场(CoS)的关联。

我们通过两个具身机器人代理的示例场景,展示了所开发的神经动力学架构在学习满足条件方面的功能:模拟 NAO机器人和实体E‐Puck机器人。

2 动态场理论

2.1 概述

动态场理论源于对神经元群体激活动态的分析。在感知或运动任务期间,此类神经元群体的激活可以通过神经场进行建模,该模型假设群体内神经元之间的连接是均匀的,并将单个神经元的离散性及其激活的脉冲特性进行平均化处理。阿米里[1],、威尔逊和科恩[29],以及格罗斯伯格[9]是最早将神经元群体的激活数学形式化为动态神经场方程(DNF方程)的研究者之一:

$$
\tau \dot{u}(x, t)= -u(x, t)+ h_u + \int f[u(x’, t)]\omega(x’ -x)dx’+ I_t(x, t).
(1)
$$

此处,动态神经场的激活表示为$u(x, t)$,其中$x$是跨越动态神经场所定义维度的参数——即模型化神经元群体所敏感的行为维度。$t$表示时间,$\tau$是动力学的时间常数,决定激活向吸引子收敛的速度,该吸引子由方程右侧最后三项定义:负的静息水平$h_u$、由相互作用核 $\omega$塑造的均匀侧向相互作用(通常为高斯函数之和,具有狭窄的正部分和更宽但较弱的负部分,即“局部兴奋,全局抑制”或“墨西哥帽”核),以及动态神经场的输出非线性$f[\cdot]$(通常为S形函数);方程的最后一项是外部输入,它驱动动态神经场,可来自另一个动态神经场(神经元群体)或感觉系统。

动态神经场的侧向相互作用确保了局部化活动隆起作为系统动力学的一个稳定解的存在,如公式1所述:响应于一个分布式的噪声输入下,动态神经场会形成一个局部化的正激活隆起,该隆起通过交互核的正向部分抵抗衰减,通过其负向部分抵抗扩散。这些局部化活动隆起或峰值,在具身认知的动态场理论[21],中作为表征单元,动态神经场被用于建模感知与运动决策、工作记忆、范畴形成、注意、识别和学习等行为特征[11, 17, 25]。针对多种认知功能的动态神经场架构已被用于模拟人类行为数据以及控制自主机器人,以证明这些架构确实可以是具身且情境化的 [7, 19]。

动态神经场能够从嘈杂、动态且连续的真实世界输入中形成并稳定鲁棒的分类输出,这是其在认知系统(包括认知机器人[3])的传感器运动界面中得以应用的基础。动态场理论已广泛应用于机器人学的多个领域,从基于视觉的目标获取与导航动力学[2],、物体表征、动态场景记忆和空间语言[19],到序列生成与序列学习 [12, 18]。

这些动态神经场中的激活峰值在动态场理论框架中代表感知对象或运动目标。多个跨越不同感知和运动维度的耦合动态神经场可组合成复杂的动态神经场架构,以组织机器人或模拟人类行为。单个动态神经场可形成一个稳定的局部峰,并能够跟踪感觉输入。为了生成一系列行为,需要一种额外的机制,使得当当前动作的行为目标达成时,该吸引子解可以被去稳定化。这促使了用于行为组织的动态神经场架构基本构建模块的发展——即确保随着智能体从一个行为过渡到下一个行为,动力学吸引子能够被稳定和去稳定的基本行为。接下来我们将介绍这些基本构建模块。

2.2 基本行为

动态场理论(DFT)中的一个基本行为(图1;[16])由意图和满足条件动态神经场(DNFs)组成。意图DNF要么预激活智能体的感知系统(例如,使其对特定特征更敏感),要么直接驱动智能体的运动动力学(例如,为运动动力学设置吸引子)。相应地,意识场(CoS) DNF会收到来自意图DNF的自上而下的偏置,该偏置指定了哪些感知输入在提示预期动作的成功完成。为了实现这一点,两个输入汇聚到CoS DNF:一个来自意图DNF,另一个来自感知DNF;感知DNF连接到传感器,并在感觉流的显著部分形成活动峰值。如果这两个输入在CoS DNF的维度上匹配,则该场内会出现一个活动峰值,从而抑制 EB的意图DNF。意图DNF遵循通用的DNF方程,即公式(1)。

公式2描述了我们的意识场(CoS)动态神经场的动态过程:
$$
\tau\dot{v}(y, t)= - v(y, t)+ h_v+ R(t)+ \int f[v(y’, t)]\omega(y’ -y)dy’
+ \int m[W(x, y, t)]f[u(x, t)]dx+ I_{sens}(y, t). (2)
$$
这里,$v(y,t)$ 是 CoS DNF 的激活,其中 $y$ 是对应于 CoS DNF 所敏感的感知特征的参数。$I_{sens}(y,t)$ 是来自感知DNF的感觉输入,而该感知DNF又直接与智能体的传感器相耦合。$R(t)$ 是奖励信号,当内部驱动力得到满足时,它为满足条件场提供全局增强。$W(x,y,t)$ 是二维权重函数,用于将意图DNF的正激活投射到CoS DNF上。该权重函数的学习动态在第3节中描述。

示意图0

意图和CoS DNF分别与意图和意识场(CoS) nodes相关联。这些节点促进了基本行为的序列组织。动态神经场适用于行为内动态,例如为特定行为选择适当的感觉输入,而这些节点则在行为间动态层面发挥作用(即行为切换)。在先前的研究中,我们已经展示了基本行为如何根据行为组织规则 [15, 16],序列顺序 [5, 6, 18],或目标导向表征的价值函数[12]进行串联。

超阈值激活的满足条件动态神经场产生一个信号,该信号表示意图其基本行为(EB)的实现已成功达成。例如,针对“寻找红色物体”这一行为的CoS DNF将检测视觉场中是否存在较大的红色物体。意识场(CoS)的激活不仅取决于给定满足条件场的具体维度,还取决于从意图场到满足条件场之间的突触连接权重。虽然场的维度反映了机器人所敏感的感官维度,但权重则塑造了满足条件场中的预激活,并使场的特定区域对感知输入敏感。这可以被理解为一种预期性注意偏向。

在我们之前的工作中,意图到满足条件的权重 $W$(见公式2)被“硬编码”到架构中。满足条件场的维度以及汇聚到该场的突触权重被设计为在期望条件下产生超阈值的满足条件激活(即,在满足条件场中形成峰值)。尽管此类硬编码约束已成功证明可在机器人代理中生成期望行为(例如,参见 [15]),但我们接下来探讨的问题是:如何在无需先验设计意图到满足条件的耦合的情况下学习基本行为的结构。

3 学习一个满足条件

本文提出了一种通过奖励门控联想学习来习得满足条件的动态场理论(DFT)机制。该基本基本行为被增强了从意图场到满足条件场(CoS field)的自适应权重。当接收到奖励信号时,学习规则会调整这些权重:增加与刺激中出现的意识场(CoS)DNF特征相连接的权重,同时降低与未在刺激中出现特征所对应的意识场(CoS) DNF位置的权重。这些特征可对应于环境中的多种不同特性,具体取决于机器人及其期望行为。其中最简单的特征之一是颜色(也是我们在实验中所使用的特征)。

权重的学习值最终指定了哪些感知特征最常与奖励相关联。学习完成后,这些权重的作用是通过对已学习到与奖励相关联的特征进行预激活,从而在局部增强满足条件场(CoS field)。一旦这些特征被感知,满足条件场的活动即达到阈值,表明当前行为已实现其目标,此时由内部驱动力驱动的奖励信号便不再需要。

在本研究中,奖励信号设计为来自一位教师,该教师可能正在训练机器人

示意图1

如何完成其基本行为。这在本质上类似于涉及SAIL机器人的研究,该机器人通过教师适时按下“好”和“坏”按钮所发出的奖励与惩罚信号,实时训练其进行避障。[28]

一种无需教师的替代解释是,奖励信号与先天的内部驱动力相关联。如前所述,这些驱动力可能类似于伍德沃思提出的典型驱动力,例如饥饿和口渴 [30]。此类驱动力作为启动行为的内部力量,当驱动力得到满足时,智能体就会获得奖励 [10]。

为了满足这些驱动力而学习到的行为可以被内化,并在类似于驱动力满足的情境下被回忆起来,即使在没有实际(外部)满足(奖励信号)的情况下也是如此。尽管智能体并未获得能够满足导致该行为形成的原始内部驱动力的即时奖励,但它可能会发现该行为在其他情境下仍然有用,或许可以与其他行为结合,以达到另一种奖励来源。

3.1 动态场中的奖励门控联想学习

DFT学习过程导致在意图与条件满足动态神经场之间的映射中形成记忆痕迹。图2展示了学习架构的示意图。有两个动态神经场,分别用于意图和意识场(CoS),各自遵循公式(1)和公式(2)。意图DNF根据当前激活的内部驱动力(主要在注意)并激活智能体行为(动作)。意识场(CoS)场接收来自感知动态神经场的输入,以及通过权重矩阵来自意图动态神经场(IntentionDNF)的输入。

奖励信号,即公式(2)中的$R(t)$,为满足条件场提供全局增强,目的是将感知引起的激活提升至输出阈值以上,从而实现意图与满足条件动态神经场之间活跃区域的权重学习。我们将奖励信号概念化为二进制($R(t) \in {0,1}$)。

二维权重函数 $W(x, y,t)$ 将意图DNF的输出映射到意识场(CoS)DNF,如图5所示。$W(x,y,t)$ 根据奖励驱动的学习规则进行更新:
$$
\tau_l \dot{W}(x, y, t)= \lambda R(t) - W(x, y, t)+f[v(y, t)] \cdot f[u(x, t)] (3)
$$
注意,只有当感知到非零奖励信号$R(t)$时,权重才会被更新。意图场输出$f[u(x, t)]$也对学习进行门控,使得权重值只能沿着由意图场峰值位置$x$所选择的$W(x,y)$的“脊线”进行更新。对于没有来自满足条件场$f[v(y, t)]$,支持的权重,其值将根据 $-W(x,y,t)$衰减。具有感知支持的权重其值会增加。 $\lambda$是一个学习率参数。

示意图2

意图峰值可被视为行为指标。当与特定行为相关的意识场(CoS)场超过阈值时,该行为即终止。满足条件场接收来自感知系统(未显示)的输入,并在输入刺激与预形态位置匹配的情况下被驱动超过阈值。

学习后,通过参考公式2可以观察到权重的效果。根据意图场输出峰值在$x’$的$x$维度上进行选择,并根据$W(x’,y)$提升相应的$y$维度(意识状态场活动)。

在我们的仿真中,公式(2)中的函数$m$(我们称之为 “成熟期”函数)控制着从学习阶段到利用阶段的过渡。$m$在“引导式学习”阶段输出为零,此时意图对满足条件场没有影响。在此阶段,来自教师的外部奖励单独通过增强作用导致满足条件场中出现峰值。在此阶段,外部奖励是权重进行学习的必要条件。在利用阶段,$m$将其输入传递到输出,从而使意图DNF根据已学习的权重对满足条件场产生偏向作用。

智能体对$W$的学习应足够成熟,使得意识场(CoS)峰值能够在没有外部奖励的情况下引发适当的条件。当智能体处于“未成熟”状态时,引导式学习阶段将非常有用,这可能是因为年龄太小尚未学会适当的$W$,或通过某些方式学到了不正确的$W$,现在需要加以纠正。或者,也可以在两个阶段中直接使用权重。在这种情况下,意识场(CoS)场的静息水平应取决于矩阵$W$中正向(已学习)权重的数量。在学习初期,权重总和的强度较低,导致CoS DNF的静息水平较低,此时若无外部奖励(驱动力满足),则无法形成活动峰值。随着学习的进展

示意图3
过程,意识场(CoS)DNF的静息水平较高,因此仅感知输入和来自意图场的加权输入就足以在CoS DNF中形成活动峰值。从功能上讲,这两种机制是等效的,而我们在此选择了一种控制性更好(但自主性较低)的机制,使用“成熟度”函数。

4 实现与结果

为了说明我们学习机制的工作原理,我们在两个机器人上进行了实现——E‐Puck和NAO,后者在模拟环境(使用Webots[27])中进行测试。机器人及其环境如图3所示。两个机器人都通过视觉感知动态神经场从其摄像头接收视觉输入。该动态神经场覆盖颜色特征维度以及图像水平维度上的位置,并在对应显著颜色物体的位置上形成活动峰值。其他特征维度已在其他动态场理论架构中使用[8],,同样也可用于此机制。

E‐Puck配备了新的彩色相机(比机载相机具有更高的帧率和分辨率),并被放置在一个方形围栏内,其中包含一个红苹果、一个黄色块以及多色干扰物品和周围的墙壁。NAO人形机器人被放置在一张桌子前,桌上有一个粉色方块和一个蓝色方块,前方是一面可变色背景墙。

每个机器人在学习过程中会在两种基本行为之间切换。E‐Puck 的相应意图的激活由教师通过界面控制。NAO 的意图则通过定时器来回切换。每种基本行为的意图最初都没有定义满足条件,意味着权重映射初始设置为全零。这些权重在每次实验中进行学习。

E‐Puck 的实现没有使用运动行为,而是由教师控制;而 NAO 则采用了随机‘咿呀’运动行为。更具体地说,E‐Puck 在具有不同多色背景的多个视图之间切换,而 NAO 则在两个焦点之间切换,并且背景表面的颜色也会变化。

我们在第3节中描述的学习过程被应用于这两种情况。权重学习通过奖励来关联与最终满足条件相对应的特征(颜色)。E‐Puck的奖励由教师提供,而NAO的奖励则是自动化的,即在意图和环境条件匹配后,奖励会以恒定信号的形式持续很短的时间。

示意图4

4.1 E‐Puck机器人实验结果

E‐Puck 在现实世界中由教师实时进行训练。该机器人具有两种意图,每种意图将通过不同的颜色得到满足,但最初它并不知道这些颜色是什么。为了便于讨论,我们可以将这两种驱动力标记为“饥饿”和“口渴”。这两种驱动力在不同时间被激活:当饥饿驱动力激活时,只有在图像中出现红色物体时才能获得奖励,如图4所示;当口渴驱动力激活时,图像中出现黄色物体才能获得奖励。实际的奖励取决于教师通过训练界面输入的信息。

机器人在场地内以伪随机方式自由移动。摄像头图像被输入到一个二维感知场[18],,其中一个维度为颜色色调(分为15个区间),另一个维度为图像列。沿摄像头图像的每一列,像素的色调被累加后作为输入传递至感知场中的特定位置。感知场中形成活动峰值,用于检测图像水平维度上的颜色物体。感知场中的正向激活被投射到色调维度,并作为输入传递至意识场(CoS)。然而,若缺乏均匀增强意识场(CoS)的奖励信号,或来自意图场的定向增强(预形态),意识场(CoS)则无法达到超阈值的激活水平,从而无法生成输出峰值。

教师提供的奖励信号的作用是为意识场(CoS)的满足条件场激活提供这种boost。这样的增强使得输出中能够出现一个峰值。因此,意识场(CoS)和意图场同时被激活,从而使关联学习规则能够调整活跃意图(对应于活跃驱动力)与意识场(CoS)之间的权重。

图6 显示了系统运行时的一个快照。意图场中的峰值反映了当前激活的意图。在左侧截图所示的感知场中,彩色物体导致黄色、红色和蓝色的色调特征激活(白色不被视为一种颜色)。尽管中心的黄色是获得奖励的原因,但三种颜色都会逐渐与此意图相关联。当机器人在许多不同情境下经历奖励时,意识场(CoS)权重中的错误线索会随着时间的推移而减弱。右侧显示的是一个简洁场景,用于对比。

可以在 people.idsia.ch/~luciw/videos/epuckcos.wmv 看到该实验的视频。在实验进行大约5分钟后,物体被移动围绕这些情境进行学习,使得许多情境得以经历,并学会了正确的映射。

权重矩阵学习完成后,奖励和教师对于实现满足条件已不再必要。权重提供了足够的增强来激活意识场 (CoS),并且在适当条件下,这种增强将对实现奖励时的感知条件具有选择性。满足条件将按需发挥作用,以终止其基本行为。

4.2 在模拟NAO机器人上的实验结果

模拟NAO机器人在与EPuck相似但更自动化的条件下进行了测试。具体而言,机器人通过左右观察来“探索”环境,由定时器控制头部方向的切换。另一个与前者不同步的定时器控制驱动力A和B之间的切换。系统接收来自机器人摄像头的视觉输入流。摄像头图像为一个双模二维感知场(Hue×列)。内部驱动力(与之前的饥饿和口渴类似)的结构设计为:只有找到对当前活跃驱动力具有选择性奖励作用的物体,才能获得奖励。当 NAO受到驱动力A驱动时,它只能通过关注粉色物体来获得奖励;当受到驱动力B驱动时,它只能通过蓝色物体获得奖励。

在学习阶段中,动态场、权重以及环境的各个画面如图7所示。奖励信号增强了意识场(CoS)场的激活。当驱动力被“满足”时,就会产生该奖励信号——驱动力 A通过感知粉色得到满足(图7(a)),但感知蓝色时未被满足(图7(b))。然而,由于背景颜色的影响,此时权重如图(b)所示仍尚未具有选择性。权重显示在下方两个子图中,并由右下子图中的蓝色线条表示。但这仍处于学习的早期阶段。图(c)显示,在经过足够的学习后,与驱动力A相关的权重变得对单一颜色(粉色)具有选择性。

学习过程的视频可在 people.idsia.ch/~luciw/videos/naocosbefore.mov 查看。这种基本的探索行为以及我们描述的联想学习机制,导致了权重矩阵的学习,该矩阵恰当地编码了满足条件。

示意图5

图8展示了机器人学习后的情况。一旦权重矩阵被学习到,实际的奖励(以及此处的教师)就变得不再必要,因为满足条件已被内化。此时,权重提供了足够的增强来激活意识场(CoS),并且这种增强针对的是获得奖励时所处的感知条件具有选择性。(a):当驱动力A活跃时,学习到的权重在感知场中引起了一个较大但低于阈值的峰值,该峰值因对粉色的感知而进一步增强。另一个较小的峰值是由于背景颜色引起的。(b):当驱动力B活跃时,权重矩阵在满足条件场中为蓝色引起了一个较大但低于阈值的峰值,该峰值因对蓝色的感知而被推高至阈值以上。学习后的NAO机器人视频可在 people.idsia.ch/~luciw/videos/naocosafter.mov 查看。

4.3 实现细节

在实现方面,神经场使用 Matlab 软件包 cosivina(https://bitbucket.org/sschneegans/cosivina/)构建。在 Webots 中,每个时间步之间经过 40 毫秒。机器人每 40 个时间步移动一次头部。背景墙每 15 个时间步变为随机颜色。驱动力每 100 个时间步改变一次。感知场的时间常数 τ 设置为 7/3,而意图场和意识场(CoS)场则为其一半。感知场和意图场的静息水平设置为 −5,而意识场(CoS)场设置为 −2.5。所有场的 S形斜率值均设置为 4。图像大小为120×160。感知场、意图场和满足条件场按照标准方式设置为“寻找颜色”行为 [18],,但意识场(CoS)的权重初始为零。二维感知场由一个维度组成,该维度是色调到 (0 20], 的映射,第二个维度为图像列。两个盒子对象的两种色调分别位于色调值 13 和 17 处。一维满足条件场位于色调维度上,并从感知场输出投影到该色调维度上的结果中获取其输入之一。满足条件场既不使用局部侧向交互,也不使用全局抑制。一维意图场位于无外部意义的数值上。意图场接收一个高斯刺激,其幅值为 5.5 且 σ= 1,中心位置取决于当前驱动力,其中驱动力A 提供以 5 为中心的刺激,驱动力B 提供以 15 为中心的刺激。意图场使用局部侧向交互,兴奋宽度参数为 3,兴奋幅值为 15,抑制宽度为 6.5,抑制幅值为 15。未使用全局抑制。意图场的输出位置设定了权重矩阵的行,而感知场的输出位置(当图像中存在多种颜色时可能有多个)设定了列。在交点处,学习—当奖励可用时,以0.01的速率发生学习。奖励使意识场 (CoS)的静息水平提高2,导致图像中的颜色出现超阈值激活,从而加强了当前意图与意识场(CoS)之间的关联。在成熟期之后,在后学习阶段,对应于当前意图的权重矩阵该行的值被作为次级输入连同感知场输出一起输入到满足条件场。在此后学习阶段,权重矩阵到意识场(CoS)的投影被乘以2。

5 讨论

5.1 与奖励预测的关系

当一个基本行为在完成时获得奖励,其意识场(CoS)场在某种意义上是一个reward predictor,因为智能体感知到正确条件(即意识场(CoS)峰值的出现)与实际感知到奖励之间的时间延迟较短。学习预测动作结果已被广泛讨论,目前存在许多处理即时奖励预测[22, 23]的生物学上合理的奖励预测学习机制。其他奖励预测方法则超越了单步预测,与动物学习文献没有直接关联[26]。在这些强化学习方法中,与策略相关联的状态或状态‐动作价值函数是一种具有折扣无限视界的奖励预测器。例如,施密德胡伯将强化视为另一种类型的输入[20],,并对这种奖励进行无折扣预测和获取,由一个完全递归的动态控制网络来实现。

5.2 与经典条件反射的关系

已在动物行为实验中研究过与本实验中类似的学习过程,特别是使用不同的条件反射范式 [4]。例如,在操作性条件反射中,动物学习期望结果与选择动作之间的关联 [14]。在差异结果学习的实验中,强调了对动作预期结果的明确表征。

在本文提出的模型中,意识场(CoS)学习过程与这类条件实验相关,在这些实验中,动物学会将特定基本驱动力(如饥饿或口渴)的满足与某一特定动作的结果关联起来。通过这种方式,我们试图回答以下问题:什么基本行为的起源是什么?我们通常认为其中一个起源是内源性驱动力。这里的“驱动力”遵循伍德沃思[30],所提出的定义,他明确区分了“驱动力”与“机制”这两个概念。其中,“机制”指的是智能体如何实现目标,而“驱动力”则指的是为何最初会产生实现某一目标的动机。作为身体驱动力的典型例子,伍德沃思提出了饥饿和口渴,它们各自作为内部力量,用以激发各种类型的行为[10]。本文提出的方法使得受此类驱动力驱动的智能体能够学习识别与期望结果相关的感知条件。

我们已经展示了驱动力满足如何导致动作结果的预期表征的发展。从神经动力学的角度来看,基本行为的意图与其满足条件之间的耦合被学习到。经过这种学习后,智能体可以在不需要外部提供的驱动力满足信号的情况下,检测到动作的成功完成。这种对动作最终状态的预期表征可用于驱动行为序列中下一个项目激活 [13]。

6 结论

在本研究中,我们展示了一种基于动态神经场的架构,该架构能够学习动作意图与其满足条件之间的耦合。这种耦合相当于对动作结果的预期,并且是基于当饥饿或口渴等内部驱动力得到满足时接收到的奖励信号而学习的。学习完成后,意识场(CoS)的感知足以使智能体认为动作已经结束,不再需要来自神经系统外部的奖励。该方法使得现实世界中的E‐Puck机器人和模拟NAO人形机器人均能在各自环境中学习不同行为的满足条件。

用于实现智能体行为意图和意识场(CoS)的动态神经场是连续激活函数,定义在相关的特征空间上。因此,该场中激活峰值的位置由当前的感觉输入决定,这些感觉输入驱动着这些场。此外,峰值具有有限宽度,因此,在学习期间,意图与满足条件动态神经场(CoS DNFs)之间的学习耦合(1)反映了智能体所经历的实际感觉状态,以及(2)泛化到特征空间中的邻近位置。如果在学习过程中,在满足条件场(CoS field)的若干相邻位置上都出现了活动峰值,则权重矩阵将反映所经历的峰值分布,尽管其“确定性”较低(相应权重的强度较弱)。

这项工作是迈向学习基本行为的第一步,这些基本行为构成了具身智能体的行为库并控制其行为。该模型展示了在具有行为能力的智能体中,如何基于感觉输入和非特定的奖励信号来学习意图与预期满足条件之间的关联。

您可能感兴趣的与本文相关的镜像

GPT-SoVITS

GPT-SoVITS

AI应用

GPT-SoVITS 是一个开源的文本到语音(TTS)和语音转换模型,它结合了 GPT 的生成能力和 SoVITS 的语音转换技术。该项目以其强大的声音克隆能力而闻名,仅需少量语音样本(如5秒)即可实现高质量的即时语音合成,也可通过更长的音频(如1分钟)进行微调以获得更逼真的效果

本 PPT 介绍了制药厂房中供配电系统的总体概念与设计要点,内容包括: 洁净厂房的特点及其对供配电系统的特殊要求; 供配电设计的一般原则与依据的国家/行业标准; 从上级电网到工厂变电所、终端配电的总体结构与模块化设计思路; 供配电范围:动力配电、照明、通讯、接地、防雷与消防等; 动力配电中电压等级、接地系统形式(如 TN-S)、负荷等级与可靠性、UPS 配置等; 照明的电源方式、光源选择、安装方式、应急与备用照明要求; 通讯系统、监控系统在生产管理与消防中的作用; 接地与等电位连接、防雷等级与防雷措施; 消防设施及其专用供电(消防泵、排烟风机、消防控制室、应急照明等); 常见高压柜、动力柜、照明箱等配电设备案例及部分设计图纸示意; 公司已完成的典型项目案例。 1. 工程背景与总体框架 所属领域:制药厂房工程的公用工程系统,其中本 PPT 聚焦于供配电系统。 放在整个公用工程中的位置:与给排水、纯化水/注射用水、气体与热力、暖通空调、自动化控制等系统并列。 2. Part 01 供配电概述 2.1 洁净厂房的特点 空间密闭,结构复杂、走向曲折; 单相设备、仪器种类多,工艺设备昂贵、精密; 装修材料与工艺材料种类多,对尘埃、静电等更敏感。 这些特点决定了:供配电系统要安全可靠、减少积尘、便于清洁和维护。 2.2 供配电总则 供配电设计应满足: 可靠、经济、适用; 保障人身与财产安全; 便于安装与维护; 采用技术先进的设备与方案。 2.3 设计依据与规范 引用了大量俄语标准(ГОСТ、СНиП、SanPiN 等)以及国家、行业和地方规范,作为设计的法规基础文件,包括: 电气设备、接线、接地、电气安全; 建筑物电气装置、照明标准; 卫生与安全相关规范等。 3. Part 02 供配电总览 从电源系统整体结构进行总览: 上级:地方电网; 工厂变电所(10kV 配电装置、变压
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值