智能代理与融合ART:迈向现实与网络空间的融合
1. 融合ART基础原理
融合ART(Adaptive Resonance Theory)在学习过程中,相关参数会同时增加,直到其中一个参数略大于其对应的匹配函数 $m_{ck}^J$,从而引发重置。之后,搜索过程会在修订后的警戒准则下选择另一个F2节点J,直至实现共振。
一旦发生共振,对于每个通道 $c_k$,权重向量 $w_{ck}^J$ 会按照以下学习规则进行修改:
$w_{ck(new)}^J = (1 - \beta_{ck})w_{ck(old)}^J + \beta_{ck}(I_{ck} \land w_{ck(old)}^J)$。
当一个未承诺节点被选中用于学习时,它会变为已承诺节点,同时会向F2场添加一个新的未承诺节点。这样,融合ART能够根据输入模式动态扩展其网络架构。
2. 学习与适应方式
融合ART支持多种学习操作,以下是几种主要的学习方式:
-
基于相似性匹配的学习
:当只有一个模式通道时,融合ART架构会简化为原始的ART模型。使用选定的警戒值 $\rho$,ART模型会连续地学习一组识别节点,以响应输入模式流。F2场中的每个识别节点会学习编码一个模板模式,该模式代表一组模式的关键特征。ART在无监督学习中被广泛用于发现模式分组。
-
基于关联的学习
:通过跨多个模式通道同步模式编码,融合ART学习对不同模式空间进行关联映射。具有两个模式通道的融合ART的一个特定实例是自适应共振关联映射(ARAM),它学习从一个模式空间到另一个模式空间的多维监督映射。ARAM系统由输入场 $F_a^1$、输出场 $F_b^1$ 和类别场F2组成。给定在 $F_a^1$ 呈现的一组特征向量及其在 $F_b^1$ 呈现的相应类向量,ARAM学习一个预测模型(由F2中的识别节点编码),该模型将关键特征组合与其各自的类关联起来。基于模糊ART操作的模糊ARAM已成功应用于众多机器学习任务,如个人资料分析、文档分类、个性化内容管理和DNA基因表达分析等。在许多基准实验中,ARAM的预测性能优于许多先进的机器学习系统。
-
基于强化的学习
:强化学习是一种自主系统根据从环境接收的强化信号调整其行为的范式。融合ART的一个实例FALCON(Fusion Architecture for Learning, COgnition, and Navigation)以在线和增量的方式同时学习跨多模态输入模式(包括状态、动作和奖励)的映射。FALCON采用三通道架构,包括类别场F2和三个模式场:用于表示当前状态的感觉场 $F_{c1}^1$、用于表示动作的运动场 $F_{c2}^1$ 和用于表示奖励值的反馈场 $F_{c3}^1$。一类名为TD - FALCON的FALCON网络结合了时间差分(TD)方法来估计和学习值函数 $Q(s, a)$,该函数表示在给定状态s下采取某个动作a的优劣程度。TD - FALCON的一般感知 - 行动 - 学习算法如下:
1. 给定当前状态s,FALCON网络根据相应的状态向量S和动作向量A预测动作集A中每个可用动作a的执行值。
2. 值函数通过动作选择策略(也称为策略)进行处理,以选择一个动作。
3. 执行动作后,如果从环境接收到反馈,则使用TD公式计算在当前状态下执行所选动作的Q值的新估计值。
4. 新的Q值用作教学信号(表示为奖励向量R),让FALCON学习当前状态和所选动作与估计值的关联。
下面用mermaid流程图展示TD - FALCON的学习流程:
graph LR
A[当前状态s] --> B[预测动作值]
B --> C[动作选择策略]
C --> D[选择动作并执行]
D --> E{是否有反馈}
E -- 是 --> F[计算新Q值]
E -- 否 --> G[结束]
F --> H[学习关联]
H --> G
3. 融合欲望、意图和学习
为了解决自主性和自我意识的问题,开发了一种混合架构,将BDI组件(包括欲望和意图)与名为时间差分 - 融合学习与认知架构(TD - FALCON)的强化学习系统集成在一起。基于信念 - 欲望 - 意图(BDI)框架,提出的连接主义BDI - FALCON(cBDI - FALCON)架构由三个模块组成:
-
反应模块
:低级反应学习模块是一个TD - FALCON模型,它通过感觉、运动和反馈通道与环境交互。基于欲望模块中定义的目标和从环境接收的感觉输入,TD - FALCON进行强化学习,以获取一组动作和价值策略,使代理能够实现其目标。
-
意图模块
:意图模块维护计划集,并支持计划学习、计划选择、计划执行和计划评估等关键过程。给定一组活跃目标和当前感觉输入,计划选择过程确定最适用的计划来执行。在计划执行期间,所采用计划的动作序列会被提取并通过反应模块的运动通道执行。计划的执行使代理能够执行一系列动作,而无需为每个动作经历典型的感知 - 行动 - 学习循环,这可能会节省计算成本,并使系统在具有挑战性的环境中更具弹性。通过一种简单的强化学习形式,计划评估过程根据计划导致的结果调整每个采用计划的置信度值。与其他认知架构不同,cBDI - FALCON中的意图模块也被建模为一个融合ART神经网络,这使得计划能够根据其使用结果通过强化学习自然地学习和更新。
-
欲望模块
:欲望模块维护代理目标的明确表示。活跃目标为代理的活动提供方向,以实现其目标。通过将定义的目标与相应的当前状态属性进行匹配,欲望模块计算系统朝着期望目标的进展程度。计算出的目标达成程度又作为奖励信号传递给反应模块的反馈场和意图模块的评估场。与反应模块和意图模块类似,该架构中的欲望模块也被建模为一个单通道融合ART网络。整体设计理念旨在通过使用一组有原则的计算过程来支持有意和反应性行为,形成一个统一的框架。理论上,系统中的所有计算都可以在分布式神经网络上并行操作,从而有可能加快处理速度。
三个模块的关系如下表所示:
| 模块名称 | 功能 | 与其他模块的关系 |
| ---- | ---- | ---- |
| 反应模块 | 基于欲望模块目标和环境输入进行强化学习 | 接收欲望模块目标,向意图模块提供执行结果 |
| 意图模块 | 维护计划集,支持计划相关过程 | 接收欲望模块目标和反应模块结果,向反应模块发送动作序列 |
| 欲望模块 | 维护目标表示,计算目标达成程度 | 为反应模块和意图模块提供奖励信号 |
为了结合计划和反应能力,开发了两种策略,即跟进策略和重新评估策略,以协调意图模块和反应模块产生的输出。通过广泛的实验分析了集成系统在计划利用率、效率和总体成功率方面的行为。在雷区导航任务的实验结果表明,集成的神经架构能够结合有意和反应性动作执行,从而在任务完成性能和效率方面都有所提高。
智能代理与融合ART:迈向现实与网络空间的融合
4. 基于用户建模学习个人代理
为了实现实时学习和个性化,将学习个人代理与自适应用户建模相结合,用于协同空间中的服务推荐。
-
自适应玩家建模
:个人代理基于TD - FALCON,采用三通道融合ART并结合时间差分(TD)方法来估计和学习其推荐的价值函数。对于玩家建模,采用两通道融合ART,通过将表示推荐的输入模式与从虚拟环境接收的表示用户反馈的教学信号配对进行监督学习。如果有初始用户配置文件,模型首先通过将玩家配置文件中指定的属性与正奖励信号关联来初始化玩家模型。在游戏过程中,玩家模型通过创建将代理推荐的关键属性与用户反馈关联的认知节点来学习用户的特定喜好。此外,可以根据用户对一般兴趣类别中推荐的积极响应频率推断用户的一般兴趣。
-
集成玩家模型与个人代理
:整体推荐代理包括个人代理、玩家模型和搜索代理。具体来说,个人代理根据当前情况和用户上下文确定要推荐的适当服务类别,如住宿、餐厅、青年奥林匹克村(YOV)场地、购物区和其他一般景点。在收到用户反馈后,玩家模型学习玩家的特定偏好,并在交互过程中用玩家的当前一般兴趣更新个人代理。通过将个人代理与自适应玩家模型集成,系统对玩家的习惯和特点更加敏感。基于个人代理的推荐输出和玩家模型指示的用户偏好,搜索代理从数据库中检索请求的信息。
下面用mermaid流程图展示推荐代理的工作流程:
graph LR
A[当前情况和用户上下文] --> B[个人代理确定服务类别]
B --> C[推荐服务给用户]
C --> D{用户反馈}
D -- 有反馈 --> E[玩家模型学习偏好并更新代理]
E --> F[搜索代理检索信息]
D -- 无反馈 --> F
F --> G[提供信息给用户]
5. 青年奥林匹克村协同空间
青年奥林匹克村(YOV)协同空间旨在以交互和可玩的方式向世界各地的游客展示青年奥林匹克村和主办国。为此,正在开发并部署以自主化身形式存在的类人认知代理,这些代理在YOV协同空间的景观中漫游。这些代理能够感知周围环境,并通过其人类化身与用户进行交互。通过让自主化身与人类化身交朋友并提供个性化的上下文感知服务,目标是使用户能够轻松获取内容和服务。
YOV协同空间的架构如下:基于TD - FALCON的个人代理与搜索代理协同工作,为用户推荐功能和服务。具体而言,个人代理确定要推荐的适当服务类型,而搜索代理根据环境情况和用户的上下文参数检索特定服务。
以下是YOV协同空间中各组件的功能对比表格:
| 组件名称 | 功能 |
| ---- | ---- |
| 个人代理 | 确定推荐的服务类型 |
| 搜索代理 | 根据环境和用户参数检索特定服务 |
| 自主化身 | 感知环境,与用户交互,提供个性化服务 |
6. 总结
融合ART作为一种广义神经模型,使用通用编码机制统一了众多传统上不同的学习范式,包括无监督学习、监督学习和强化学习。由于ART风格的学习和匹配机制似乎在大脑的许多皮层水平上都起作用,因此该框架可作为开发智能代理高级认知信息处理能力的基础模型,这些能力包括感知、推理、解释和处理意外情况等。通过在YOV协同空间等场景中的应用,展示了其在实现智能代理与现实和网络空间融合方面的潜力,未来有望在更多领域发挥重要作用。
融合ART与智能代理的协同学习
超级会员免费看
16

被折叠的 条评论
为什么被折叠?



