神经符号学及其应用研究

原创已于 2025-01-27 01:59:57 修改 · 2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#神经符号学

于 2024-11-28 00:52:02 首次发布

complex systems 专栏收录该内容

2 篇文章

订阅专栏

神经符号学及其应用研究

蔡莹皓 1,2, 杨华 3, 安璇 1,2, 王文硕 1, 杜沂东 1, 张嘉韬 3, 王志刚 3

1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190

2 中国科学院大学人工智能学院，北京 100049

3 英特尔中国研究院，北京 100190

Study on NeuroSymbolic learning and its applications

摘要

深度学习在感知智能上的不断突破推动了人工智能在各领域的广泛应用。但在实际落地过程中，只有把感知智能提高到更高层的认知智能，才能更好地满足日益复杂的应用需求。神经符号学将擅长感知任务的神经网络方法和擅长推理任务的逻辑符号学有机地融合在一起，是实现高层认知智能的途径之一。基于此，提出了一套神经符号学的实用框架 NSFOL，并基于 NSFOL 实现了机器人任务规划、自学习机器人运动规划和教育实验视频评估 3 个典型应用。实验结果表明，尽管 NSFOL 尚未完善，但是它已经能够很好地支持相关应用，在可学习、可推理、可解释和可泛化方面具备一定的优势。希望通过阐述神经符号学的阶段性研究成果，激发更多的思考和研究，共同推动神经符号学的发展。

关键词：人工智能；神经符号学；机器人任务规划；机器人运动规划；教育实验视频评估

0 引言

近年来，在深度学习和大数据的驱动下，人工智能取得了突破性的进展，在一些特定领域（尤其是计算机视觉任务）的准确率甚至超过了人类。因此，人工智能也被尝试应用于不同的领域，以减少日益增长的人力成本。然而在实际落地的过程中，与人类智能相比，目前的人工智能技术尚有诸多不足。究其原因，目前的人工智能尚处于感知层次，认知能力的不足成为制约人工智能发展的关键瓶颈。只有将感知层次提高到认知层次，才能更好地满足各种应用的需求。感知与认知的主要区别在于，感知能力是指通过感官看到、听到或感受到某些具体事物的能力，而认知能力则基于已有的知识对感知到的信息进行加工、整理以支持决策。感知和认知是两个具有内在联系的概念，人类智能将感知智能和认知智能无缝地融合在一起，不仅能获取和正确解析外界环境信息，还能高效鲁棒地对接下来产生的行为做出合适的决策和规划。在现有的计算机理论中，深度学习和符号逻辑分别能够很好地对感知智能和认知智能进行建模和表示。但是，这两套理论尚不能无缝地衔接在一起。可微计算 [1] 和双系统理论 [2] 为这种融合打开了一扇新的大门，引发了学界的广泛关注，因此，神经符号学应运而生，其被认为是第三代人工智能 [3]。

前两代人工智能分别以基于符号推理的方法和基于神经网络的方法为代表。基于符号推理的方法先通过符号化将知识和逻辑表示成符号和规则，然后基于已有事实，利用逻辑规则进行推理，完成决策过程。基于符号推理的方法能够较好地解决认知智能的问题，具有一定的可解释性和可靠性。由于这类方法是以结构化的知识为基础的计算范式，需要人工预先定义所需的逻辑符号，这极大地限制了它的应用范围。基于神经网络的方法本质上是数据驱动的计算范式。基于神经网络的方法针对具体的问题设计对应规模的网络模型，然后收集大量目标数据（主要是非结构化数据，如图像、视频等），最后通过反向传播算法，训练得到神经网络的模型参数。在数据和算力的加持下，基于神经网络的方法在图像处理、语音识别等领域取得了丰硕的成果，很好地解决了感知智能问题。

为了让人工智能能够像人类智能一样，近年来一些研究工作开始探讨第三代人工智能 [1,2,3,4]，将前两代人工智能融合在一起，取长补短。目前两者结合的主要挑战在于基于神经网络的方法和基于符号推理的方法在不同空间中进行操作，一个是连续的向量空间，一个是离散的符号空间，因此必须借助新的数学工具才能将二者结合起来。神经符号学的目标是将通过概率学习实现的低层感知能力与通过逻辑系统实现的高层推理能力紧密结合在一起 [3,5]，通过神经网络实现感知和识别，将非结构化信息直接映射成准符号信息，整个过程无须人工介入。高层的逻辑推理基于准符号信息进行，从而完成规划、类比等任务，甚至基于高层反向推理提升低层识别精度和降低低层感知模块的识别难度。神经符号学的方法在一些应用领域都取得了不错的成果 [3,6-7]，各项研究工作在状态表示和融合方法上各有千秋，目前还没有形成统一的解决方案，因此神经符号学仍是一个新兴的研究热点和难点。本文第 1 节对现有神经符号学方法进行分析，第 2 节提出一个较为实用的理论框架，第 3 节介绍基于该框架的 3 个典型应用，第 4 节总结全文。

1 神经符号学简介

神经符号学的基本方法是构建一个准符号空间。该符号空间具备两个特性：一是该空间中的符号具有一定的语义信息，人们不仅可以理解后续的推理过程，还可以把已有的知识编码进这个空间，帮助后续的运算；二是该空间是连续的，这个特点与传统的符号空间存在明显的差异。准符号空间中的运算都是可微的，即反向传播算法在该空间中依然有效，后续可以通过实践中采集到的数据进一步学习和修正相关参数。准符号空间可以位于系统的不同位置，以更好地满足不同的应用需求。目前国内外研究学者提出了多种神经符号学的研究框架，本文根据该准符号空间在系统中的不同位置，将神经符号学系统分为两类：推理导向的神经符号学和学习导向 [8] 的神经符号学，如图 1 所示。

推理导向的神经符号学基本原理如图 1（a）所示。推理导向的神经符号学通过神经网络处理非结构化数据，将非结构化数据转换为多维特征向量，并将该特征向量作为准符号输入推理引擎 [9,10,11,12]。由于输入特征向量在空间的表示是连续的，推理引擎通常需要先将符号逻辑扩展为概率逻辑，才能支持在连续空间上的推理。值得一提的是，这里的推理引擎不仅能够提供正向推理的能力，还能够提供反向推理的能力。在执行任务的过程中，由于推理引擎的存在，系统不仅知道自己要做什么，还知道这样做的原因以及期望的结果。当真实结果与预期结果不一致时，该系统可以通过反向推理推导出出问题的步骤，对应的结果可以作为前端神经网络的标记真值（ground-truth），帮助神经网络修正模型参数 [12]。

图 1

)

图 1 神经符号学方法分类

学习导向的神经符号学的主体同样是神经网络，即用神经网络直接处理非结构化的输入数据，并输出期望的结果。与传统神经网络不同，学习导向的神经符号学在训练过程中引入了知识 [8,13,14,15]。图 1（b）是学习导向的神经符号学的典型例子，在训练过程中该方法基于神经网络得到非结构化数据中相关中间特征表示的同时，也根据知识图谱获得对应的特征表示（embedding），并通过定义损失函数将图像特征与知识特征进行对齐。因此，这些对应神经网络识别过程中获得的中间特征是与知识一致的，人们可以通过这些特征理解最终的推理结果，甚至将这些特征重新组合，识别没有训练过的事物。

这两类方法都将神经网络和符号逻辑有机地融合在一起，在可解释性、可靠性和泛化性等方面取得了不错的进展。但这两种方法尚未形成统一的理论，也就是说不能用简单的一套方法完成所有与认知相关的任务，在实践中需要根据不同的应用场景选择不同的方法。推理导向的神经符号学多用于需要规划能力（planning）的应用中，如机器人任务规划、检查操作规范等。学习导向的神经符号学多用于需要类比能力（analogy）的识别任务中，如小样本学习（few-shot learning)、零样本学习（zero-shot learning）等。

2 NSFOL 框架

基于推理导向的神经符号学，本文提出了基于神经符号学的一阶逻辑框架 ——NSFOL 框架，如图 2 所示，将神经符号学应用于机器人相关领域，其主要目标是让机器人在理解场景后实现自主规划，完成移动操作任务，甚至为人类主动提供服务。

图 2

)

图 2 NSFOL 框架

NSFOL 框架包含两个主要模块：基于神经符号学的一阶逻辑模块和领域知识模块。一阶逻辑由于其强大的描述能力已经得到了广泛的应用 [16]。在一阶逻辑中，原子语句是最基本的语句，它是由谓词表示的物体的属性或关系；复杂语句是使用连接词 (∧,∨,¬,→,↔)

组合原子语句而成的。一阶逻辑基于原子语句和复杂语句完成对已知事实和规则的描述，然后利用推理规则推理出新的结论。式（1）、式（2）、式（3）展示了常见的 3 种推理规则：假言推理（modus ponens，MP）、合取介入（and-introduction，AI）和全称消去（universal elimination，UE）。可见，谓词是一阶逻辑系统中关键的一环。传统的一阶逻辑模块在定义谓词时需要明确地解释它何时为真，何时为假，以方便后续的推理。基于神经符号学的一阶逻辑模块将一阶逻辑中的谓词扩展为神经谓词，即以神经网络的方式分析物体属性或物体间的关系。例如：on (A,B) 和 clear (A) 是规划问题中常用的两个谓词。on (A,B) 描述物体 A 是否在物体 B 上面，clear (A) 描述物体 A 上方是否有其他物体。由于基于传统符号的方法难以实现谓词与物理世界的直接关联，需要不断地细化谓词的定义才能实现与传感器数据的一一对应。假设物体 A 和 B 是二维空间物体，且存在谓词 Xmin ()、Xmax ()、Ymin ()、Ymax () 表示物体在空间中 (x, ) y 坐标的最小值和最大值。on (B,A) 可以被细化成 Xmin (B)≥Xmin (A) 且 Xmax (B)≤Xmax (A) 且 Ymax (A)=Ymin (B)。可以看出，即使在二维空间中，这种定义也是非常复杂的，需要有经验的人员才能完成。此外，上述谓词的定义仅限于特定的实验环境，不同环境谓词的定义可能不同。例如上文描述的 “在…… 上” 的定义只适用于边界清晰、大小确定的积木世界，难以在模糊、有噪声的环境中推广应用。

$\begin{align*} & \frac{\alpha ,\alpha \to \beta }{\beta }\quad & (1) \\ & \frac{\alpha ,\beta }{\alpha \wedge \beta }\quad & (2) \\ & \frac{\forall x,\alpha }{\alpha x/\tau }\quad & (3) \end{align*}$

针对上述问题，一些学者提出了神经谓词的概念，通过神经网络的方式描述一阶逻辑系统中的谓词。神经谓词可实现将非结构化的输入状态（如相机拍摄到的图像信息）转换为可推理的符号状态，即实现对连续非结构化数据的符号接地（symbol grounding）。由于神经谓词的输出是连续的向量，如果简单设定一个阈值完成映射工作，则容易在系统中产生逻辑冲突，导致后续推理无法进行。因此，还需要概率化和向量化的方式使推理系统能够直接处理神经谓词的输出，这不仅避免了无效状态的产生，还将推理系统扩展为一个连续可微的推理系统，使得基于推理结果进行学习成为可能（本文第 3.3 节介绍的应用充分利用了这一特性）。

笔者在实践中发现，引入领域知识可以进一步提高基于神经符号学的一阶逻辑模块的可用性。基于领域知识可以实现谓词的扩充（例如利用时空常识基于 “左” 谓词扩充出 “右” 谓词）、不可见信息的补充（例如利用物体无法瞬移的常识，将曾经被遮挡的物体位置推理出来）以及产生多条逻辑规则实现交叉验证（例如利用人类指令中的冗余信息生成多个规则筛选目标物体，交叉验证结果的正确性）。

基于神经符号学的一阶逻辑模块和领域知识模块相辅相成，将神经符号学理论转换成实用性较高的工具框架。当然，要让 NSFOL 框架真正完善起来仍道路漫长，还需要在实践中不断完善，补全实现细节。

3 NSFOL 应用探讨

本文采用应用驱动的方式，逐步补全 NSFOL 中的实现细节，本节将介绍 3 个基于 NSFOL 框架完成的典型应用。

3.1 基于 NSFOL 的机器人任务规划

机器人任务规划是指根据被操纵对象的初始状态和目标状态，自主选择合理的动作序列改变机器人和被操纵物体的状态，通过多步实现从初始状态到目标状态的转移 [17-18]。机器人任务规划是机器人研究中的热点问题。目前，这类方法大部分以逻辑推理为基础展开任务规划，通过对规划领域定义语言（planning domain define language，PDDL）[19-21] 进行调整和扩展来更好地定义问题，实现针对问题优化的解决方案 [22,23,24]。这类研究的共同问题是需要符号学专家预先定义系统状态的符号表示，并将其作为规划器的输入，这极大地限制了应用范围。近年来，部分学者尝试通过深度强化学习的方式实现机器人任务规划 [25-26]。由于深度学习通常需要大量的数据才能训练出满足要求的规划器，目前大部分的研究工作仍基于实验室场景（易于保证虚拟环境和真实环境一致）完成。此外，由于数据获取难度的限制，基于深度强化学习的机器人任务规划难以用于长程任务的规划。

本文选取了动力电池拆解这一极具挑战同时非常有实际意义的任务进行 NSFOL 框架的应用研究。随着大容量锂离子电池技术的成熟，越来越多的汽车制造商将动力电池作为新能源汽车动力源 [27]。动力电池中含有的多种金属元素都是稀缺资源，处理不当容易污染环境，这使得动力电池回收成为亟须解决的问题 [28]。目前动力电池的拆解回收仍采取人工拆解为主，少量引入机器辅助拆解的方式 [29-30]。这种方式不仅低效，而且需要工人长期在恶劣的环境中工作，用工成本和风险都很高。为了减少拆解工作环境对拆解工人的伤害，提高经济和社会效益，以应对大规模急速增加的拆解任务的工作量，相关企业都在积极探索使用机器人自主智能化拆解回收动力电池的可能性 [31]。

动力电池拆解任务主要面临两个挑战。首先是任务步骤多、环境动态性强，难以找到足够的数据对机器人进行全流程动作序列的训练。其次是对可解释性的要求较高，系统需要知道机器人当前正在执行的任务、执行该任务的原因以及是否需要调度到人工工作台帮助完成。由于任务复杂度较高，短期内人机协同作业是必然的。

基于 NSFOL 的机器人任务规划以动力电池拆解回收任务为背景展开研究工作，系统框架如图 3 所示。图 3 的持续学习部分旨在通过反向推理实现神经谓词的持续学习和更新。如第 2 节所述，系统引入了神经谓词的概念，通过神经网络实现多模态传感数据到符号状态的映射，并采用 PDDL 描述每个拆解动作的原语，包括每个动作执行的前提条件以及该动作执行完成后对环境的影响。基于逻辑的最佳方案搜索模块根据当前状态和目标状态，使用逻辑推理的方式自动地搜索出到达目标状态的动作原语序列。机器人任务规划的整个过程具有一定的可解释性。神经谓词的引入使得该规划方法不需要人工完成符号抽象工作，而是根据输入传感数据自主完成任务规划，进而控制机器人执行任务。值得一提的是，在基于 NSFOL 的机器人任务规划中，神经网络主要用于区分不同的状态得到神经谓词，而不是用于深度强化学习中区分状态并做出决策（需要进行全流程动作序列的训练），因此训练神经谓词所需的数据量远小于深度强化学习所需的数据量。

基于 NSFOL 的动力电池拆解回收任务定义了两个神经谓词：目标无遮挡（target_clear）和目标已对准（target_aim）。并基于该谓词定义了拆解螺栓所需的 5 个基本动作原语：靠近目标（approach）、拨动杂物（push）、姿态调整（mate）、螺栓套接（insert）和解除连接（disassemble）。每个动作原语的定义中包含执行该动作的前提条件（PRECOND）和执行后的效果（EFFECT）。执行动作会使得状态中的某些值从真变成假，某些值从假变成真，为了方便后续演算，本文把从真变成假的值集中在 EFFECTnegative 中，把从假变成真的值放在 EFFECTpositive 中。动作规划的问题就被转换成了一个一阶逻辑演算的问题。演算过程中一个动作能否被执行可以由式（4）得出，其中 s 代表当前的系统状态，它可以通过将神经谓词应用于当前传感数据得到，也可以在演算中假设某些动作被执行，根据式（5）获得。ACTION (s) 表示在状态 s 下可执行的操作。RESULT (s, ) a 表示在状态 s 下执行动作 a 的结果，可作为下一步演算的状态。这样，系统可以根据机器人当前的传感数据，通过式（4）和式（5）迭代搜索出能够到达目标状态的操作序列。同时，在执行过程中机器人还不断地检查当前的输入是否与规划过程中产生的预期状态一致，如果不一致则及时进行调整。整个过程都是可解释的，当机器人发现自己无法完成任务时，可主动寻求人工帮助。由于目标明确，人工介入易于实现。此外，由于人工的介入，正确的操作给系统提供了反向推理的线索，可为后续实现持续学习提供必要的依据，具体细节见参考文献 [32]。实验表明，该系统能够根据拆解场景中的不确定因素动态进行调整，完成目标任务，尤其在不确定环境实验中的整体成功率达到 98%，表现出较高的自主性。

$\in ACTION(s)) \leftrightarrow s \models PRECOND(a) \quad (4)$

$EFFECT_{\text{negative}}(a)) \cup EFFECT_{\text{positive}}(a) \quad (5)$

图 3

图 3 基于 NSFOL 的机器人任务规划系统框架

3.2 基于 NSFOL 的自学习机器人运动规划

第 3.1 节介绍的系统需要人工首先确定神经谓词，并采集相应的传感数据训练神经谓词，设计动作原语对应的逻辑描述 PDDL。本文期望进一步降低设计部署的难度，系统能够根据人的操作演示，自动学习所需要的神经谓词以及动作原语的逻辑描述。为此，本文进一步提出了基于 NSFOL 的自学习机器人运动规划的系统，其框架如图 4 所示。基于传感器输入（如 RGB 和深度图像、机器人自身状态以及力和力矩等信息），系统根据人的操作演示自动学习与操作任务相关的神经符号运算符（symbolic operator）。通过神经符号运算符学习（symbolic operator learning，SOL）可以得到概率符号接地（probabilistic symbol grounding，PSG）模型和状态转移预测（state transition prediction，STP）模型。其中概率符号接地模型用于将高维传感器输入状态映射到规划所需的符号状态，是神经谓词的一种形态。与第 3.1 节中的神经谓词不同，该形态的神经谓词只具备准语义，而不具备明确的语义。由于缺乏明确的语义，如果基于该符号状态定义 PDDL，再依据 PDDL 预测状态的转换，不仅麻烦而且容易出错。因此系统直接使用状态转移预测模型预测每次动作执行后的状态。最后，任务规划依据学习得到的神经符号运算符在状态空间中搜索生成动作序列以达到目标状态，实现机器人自主任务和运动规划。

图 4

图 4 基于 NSFOL 的自学习机器人运动规划的系统框架

基于 NSFOL 的自学习机器人运动规划的系统工作流程如图 5 所示。图 5 中专家演示动作序列包含动作的标签以及动作对应的图像状态。神经符号运算符学习包含变分自编码器（variational autoencoder，VAE）模型、状态聚类和状态转移预测。首先依据人的操作演示动作序列训练变分自编码器模型，从而得到神经符号运算符的状态向量表示（latent vector）。通过对变分自编码器模型中损失函数的设计，相关联的图像状态向量表示之间的距离相互接近，不相关的图像状态表示之间相互远离。变分自编码器的主干网络采用残差网络 ResNet，通过注意力机制建模空间上下文信息。接下来，系统根据图像状态向量表示自动地确定聚类类别的数量，并通过 k-means 对图像状态向量表示进行聚类 C 1,C2,…,Cn。通过对人的操作演示动作序列的学习还可以得到神经符号状态表示之间的转移关系，状态转移预测模型基于状态之间的转移关系如 Ppush、Pmate 等预测每次动作执行后的状态。系统依据状态转移预测在状态空间中搜索出能够实现目标状态的最优动作序列。基于神经符号自学习的机器人运动规划方法可以根据当前的环境变化实现在线规划，若当前状态与执行中的原始规划不一致，则自动执行重规划。本文在电池螺栓拆卸任务上对基于神经符号自学习的机器人运动规划方法进行了实验验证，实验结果与第 3.1 节的基于 NSFOL 的机器人任务规划方法取得的结果基本一致 [33]，在配置相同的动态环境中总体成功率达到 96%。

图 5

图 5 基于 NSFOL 的自学习机器人运动规划的系统工作流程

本文通过概率符号接地模型学习得到的概率状态符号具备典型的准符号空间的特征，任务规划过程中的准符号如图 6 所示。图 6 中的

向量 A、B、C都是概率状态符号， A由输入图像经过 VA E 编码和相似度分析后产生，B 和 C则在推理过程中产生（通过在A上应用动作姿态调整和拨动杂物状态转移预测模型计算获得）。这些概率状态符号均为可运算的四维向量，具备一定的语义信息。图 6 中向量 A、B、C下方的图像为将向量解码后获得的信息。由于注意力模型的影响，解码出的图像并不是所有位置都是清晰的。通过观察可以发现，与C对应的图像中套筒的正下方有一个清晰可见的螺栓（六边形），代表套筒在螺栓的正上方，且没有障碍物；B 对应的图像中，套筒正下方有模糊的螺栓，说明螺栓已对准，但是螺栓旁由于障碍物的存在，会影响套接操作；A 对应的图像除套筒清晰外，其他位置都比较模糊，说明该状态还没有对准螺栓。这与第 3.1 节中人工定义的目标已对准和目标无遮挡状态紧密关联。上述观察很好地解释了需要经过 mate 和 clear 动作，才能为套接螺栓做好准备的原因。

3.3 基于 NSFOL 的教育实验评估系统

教育实验评估系统旨在检查视频中发生的步骤是否与预先定义的动作规范一致。这与机器人的任务规划异曲同工，本节以教育领域中的理化生实验为目标应用，验证神经符号学在该领域的可行性。

人工智能不断成熟，逐渐成为引领科技发展和产业变革的重要驱动。在教育领域，人工智能也在不断地融合教育领域的特点与需求，提供灵活、开放、平等、个性化的教育资源与服务，在提升学生学习效率的同时减少教师繁重的日常工作。初高中的理化生实验教学及考核往往需要教师同时指导或考核多个学生实验操作，教师工作负担较大，学生在操作课堂上也难以得到有效的针对性的指导，一些不规范的操作没有被及时指出并修正，导致在考核中失分。为此，将人工智能应用于理化生实验评估，并指出学生操作失分点的工作十分具有现实意义。

理化生实验评估任务希望输入学生的实验操作视频及教师评分标准，如图 7 所示，通过人工智能算法自动地对学生实验操作进行评分，并能给出具体失分点，准确地指出学生的不规范操作。现存工作的主要解决思路可以分为两类：第一类是通过人工编写代码进行评分判定，这种方式的泛化性较差，难以迁移到新的实验或者新的操作上；第二类是设计和训练一个端到端的深度学习模型，完成对视频的评分判定，这种方式的缺点是需要大量数据（尤其是标注数据），而且缺乏可解释性。教学的关键通常需指出错误点，以便学生及时更正，所有缺乏可解释性的系统在教育领域几乎不被接受。

图 6

图 6 任务规划过程中的准符号

图 7

图 7 理化生实验示例

针对现有方法的不足，本文将 NSFOL 框架应用在理化生场景下并设计了一个实验自动评估系统。基于 NSFOL 的评估系统框架如图 8 所示，将教师评分规则输入模型后，经过逻辑解析模块将自然语言的评分规则转化成为逻辑表达式查询的形式（如式（6）所示），逻辑表达式由基本的神经谓词和辅助的逻辑算子（完成基于谓词的物体筛选（Filter）、计数（Count）、存在（Exist）等操作）构成。之后评分逻辑表达式在逻辑推理引擎中解析并执行。执行过程在逻辑表达式的驱动下逐层展开。当逻辑表达式执行完成后即可得到对应的评分判定。当评分判定为失败时，系统可通过反向查看逻辑流，找出导致最终失败的第一个逻辑运算，给出判错的缘由，实现评分的可解释性。系统可以通过逻辑规则重新组合神经谓词实现新的判定流程，完成对新场景的泛化。同时，NSFOL 是一个可微的框架，该系统可以利用这一特性，用问答的方式完成图像信息的标注，并基于此完成神经谓词的训练，降低标注难度和成本。实验中利用可微架构学习出 “左”（left）和 “上”（on）两个神经谓词，F1 评分分别达到 95.7% 和 96.7%，充分证明了该方法的有效性。

$\exists x \, p_1(x) \land p_2(x) \land p_3(x) \land \cdots \land p_n(x) \quad (6)$

本文在初中物体天平测量物体重量实验中进行了初步的测试，定义并基于问答标注数据训练出了两个关系型神经谓词：一个物体是否在另外一个物体上方（on），一个物体是否在一个物体右方（right）。并基于关系的对称性拓展了下方（off）以及左方（left）两种关系。实验结果显示，该方法不仅有很高的准确率（现有实验评分正确率为 100%）而且有很好的解释性。以评分要点 “天平右盘放置砝码” 为例，可以看出图 9（a）满足评分条件，模型判定得分，置信度为 0.866。如前文所述，该框架以符号推理为主线，可以准确地指出导致失分的不规范操作步骤。如图 9（b）所示，由于（伪造）图像中仅有单侧天平托盘，无法构成 “右边托盘” 概念，因此模型在逻辑表达式中指出了错误的步骤为找不到右边托盘（图 9（b）中 Bad Step 所指位置）；如图 9（c）所示，托盘上没有砝码，可以看到逻辑流程中模型准确指出了天平右盘上无砝码（图 9（c）中 Bad Step 所指位置）。为了验证了系统的泛化性，本文通过简单地调整逻辑表达式实现了 “天平左盘放置待测物体” 的判断，实验结果如图 9（d）所示。

图 8

图 8 基于 NSFOL 的评估系统框架

总体而言，由于缺乏视频分割和关键帧提取等步骤，本系统还不算一个完整的评估系统。但初步的实验表明，基于 NSFOL 的教育实验视频评估系统可以准确实现实验评分，并具有一定的可解释性和泛化性，应用前景广阔。

4 结束语

人工智能经过以符号推理为核心的第一代和以深度学习为代表的第二代，在视觉、听觉等感知智能层面取得了巨大的进展。但是，目前人工智能尚不具备推理、规划、类比等高级认知功能，应用场景受到极大的制约。神经符号学方法尝试将符号和深度学习方法结合起来，通过神经网络连接感官处理非结构化数据，通过符号方法实现推理，最终向高级认知功能推进。本文在深入理解神经符号学的基础上提出了 NSFOL 框架，基于神经谓词以及可微推理架构，引入领域知识和人类常识支持更高效的推理计算。相比于纯符号推理方法和纯深度学习方法，本文提出的方法可直接接入非结构化数据进行推理，应用场景丰富，且具备更佳的可解释性和泛化性。本文在机器人任务规划、自学习机器人运动规划和教育实验评估 3 个领域中分别验证了该框架的有效性，展示了不同谓词定义和训练方法及基于可微推理架构完成目标。未来将致力于进一步完善 NSFOL 框架：结合领域和常识知识图谱进一步拓展谓词空间，在符号空间的时域维度拓展推理能力，支持连续动作和行为的识别等，以支持更加复杂的认知智能。

图 9

图 9 评分测试案例分析

参考文献

YANN L C. Deep learning has outlived its usefulness as a buzz-phrase [Z]. 2018.
BENGIO Y. From system 1 deep learning to system 2 deep learning [C]// Proceedings of the 33rd Conference on Neural Information Processing Systems. [S.l.:s.n.], 2019.
GARCEZ A A, LAMB L C. Neurosymbolic AI: the 3rd wave [J]. arXiv preprint, 2020, arXiv:2012.05876.
张钹，朱军，苏航. 迈向第三代人工智能 [J]. 中国科学：信息科学，2020, 50 (9): 1281-1302.
ZHANG B, ZHU J, SU H. Toward the third generation of artificial intelligence [J]. Scientia Sinica (Informationis), 2020, 50 (9): 1281-1302.
GALLI E, KAHNEMAN D. Thinking, fast and slow [J]. Journal of Public Finance and Public Choice, 2011, 29 (1/2/3): 214-215.
MAO J Y, GAN C, KOHLI P, et al. The neuro-symbolic concept learner: interpreting scenes, words, and sentences from natural supervision [J]. arXiv preprint, 2019, 2019, arXiv:1904.12584.
RAEDT L, MANHAEVE R, DUMANCIC S, et al. Neuro-symbolic = neural + logical + probabilistic [C]// Proceedings of the 14th International Workshop on Neural-Symbolic Learning and Reasoning. [S.l.:s.n.], 2019.
KAMPFFMEYER M, CHEN Y B, LIANG X D, et al. Rethinking knowledge graph propagation for zero-shot learning [C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 11479-11488.
EVANS R, GREFENSTETTE E. Learning explanatory rules from noisy data [J]. Journal of Artificial Intelligence Research, 2018, 61: 1-64.
SI X J, RAGHOTHAMAN M, HEO K, et al. Synthesizing datalog programs using numerical relaxation [J]. arXiv preprint, 2019, arXiv:1906.00163.
KALYAN A, MOHTA A, POLOZOV O, et al. Neural-guided deductive search for real-time program synthesis from examples [J]. arXiv preprint, 2018, arXiv:1804.01186.
ZHOU Z H. Abductive learning: towards bridging machine learning and logical reasoning [J]. Science China Information Sciences, 2019, 62 (7): 1-3.
XU J Y, ZHANG Z L, FRIEDMAN T, et al. A semantic loss function for deep learning with symbolic knowledge [J]. arXiv preprint, 2017, arXiv:1711.11157.
CHEN R Q, CHEN T S, HUI X L, et al. Knowledge graph transfer network for few-shot recognition [J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34 (7): 10575-10582.
LI A X, LUO T G, LU Z W, et al. Large-scale few-shot learning: knowledge transfer with class hierarchy [C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 7205-7213.
VAN EMDEN M H, KOWALSKI R A. The semantics of predicate logic as a programming language [J]. Journal of the ACM, 1976, 23 (4): 733-742.
GARRETT C R, CHITNIS R, HOLLADAY R, et al. Integrated task and motion planning [J]. Annual Review of Control, Robotics, and Autonomous Systems, 2021, 4: 265-293.
CASTAMAN N, PAGELLO E, MENEGATTI E, et al. Receding horizon task and motion planning in changing environments [J]. arXiv preprint, 2020, arXiv:200903139.
HASLUM P, LIPOVETZKY N, MAGAZZENI D, et al. An introduction to the planning domain definition language [J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2019, 13 (2): 1-187.
FOX M, LONG D. PDDL2.1: an extension to PDDL for expressing temporal planning domains [J]. Journal of Artificial Intelligence Research, 2003, 20: 61-124.
LITTMAN M L. PPDDL1.0: an extension to PDDL for expressing planning domains with probabilistic effects [Z]. 2004.
SERRANO S A, SANTIAGO E, MARTINEZ-CARRANZA J, et al. Knowledge-based hierarchical POMDPs for task planning [J]. Journal of Intelligent & Robotic Systems, 2021, 101 (4): 1-30.
WANG Y F. Hierarchical task planning for space manipulator with multi-constraint [J]. Journal of Mechanical Engineering, 2017, 53 (11): 104.
MANHAEVE R, DUMANČIĆ S, KIMMIG A, et al. Deepproblog: neural probabilistic logic programming [J]. arXiv preprint, 2018, arXiv:180510872.
GU S X, HOLLY E, LILLICRAP T, et al. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates [C]// Proceedings of 2017 IEEE International Conference on Robotics and Automation. Piscataway: IEEE Press, 2017: 3389-3396.
ZHANG F Y, LEITNER J, MILFORD M, et al. Towards vision-based deep reinforcement learning for robotic motion control [J]. arXiv preprint, 2015, arXiv:151103791.
DIXON J, BELL K. Electric vehicles: battery capacity, charger power, access to charging and the impacts on distribution networks [J]. eTransportation, 2020, 4: 100059.
KE Q D, ZHANG P, ZHANG L, et al. Electric vehicle battery disassembly sequence planning based on frame-subgroup structure combined with genetic algorithm [J]. Frontiers in Mechanical Engineering, 2020, 6: 576642.
MAHARSHI S, REDDY K J. Cloud based disassembly of electric vehicle battery [J]. Procedia Manufacturing, 2019, 30: 136-142.
BLANKEMEYER S, WIENS D, WIESE T, et al. Investigation of the potential for an automated disassembly process of BEV batteries [J]. Procedia CIRP, 2021, 98: 559-564.
HARPER G, SOMMERVILLE R, KENDRICK E, et al. Recycling lithium-ion batteries from electric vehicles [J]. Nature, 2019, 575 (7781): 75-86.
任伟，王志刚，杨华，等. 基于神经符号的动力电池拆解任务与运动规划 [J]. 计算机研究与发展，2021 (12): 2604-2617.
REN W, WANG Z G, YANG H, et al. NeuroSymbolic task and motion planner for disassembly electric vehicle batteries [J]. Journal of Computer Research and Development, 2021 (12): 260
DU Y D, WANG W S, WANG Z G, et al. Learning symbolic operators: a neurosymbolic solution for autonomous disassembly of electric vehicle battery [J]. arXiv preprint, 2022, arXiv:2206.03027.