在复杂系统研究中,「网络」几乎无处不在——从基因调控网络、微生物群落,到人类社会中的传播网络与交通网络。然而,如何真正理解这些高维网络背后的动力学规律,始终是该领域最棘手的问题之一。
一方面, 传感器、测序技术和数字化基础设施的发展,使人们拥有了前所未有的海量观测数据;另一方面, 能够解释这些数据、并揭示因果机制的可解释数学模型却严重匮乏。高维、强非线性、结构异质性,使得传统的建模方法要么依赖强假设、适用范围有限,要么只能停留在相关性分析,难以触及系统运行的本质规律。
针对相关挑战,清华大学电子工程系李勇教授及团队提出了一种神经符号回归方法 ND², 通过从数据中自动推导出数学公式来刻画系统动力学。该方法将高维网络上的搜索问题等价地简化为一维系统,并利用预训练神经网络引导高精度的公式发现。在不同尺度的人类流动网络上的传染病传播研究中,该方法发现了在跨尺度上呈现相同幂律分布的节点相关性动力学,并揭示了各国在干预效果上的差异。
相关研究以「Discovering network dynamics with neural symbolic regression」为题,已发表于 Nature Computational Science。

论文链接:
https://www.nature.com/articles/s43588-025-00893-8
关注公众号,后台回复「神经符号回归」,下载完整 PDF
更多 AI 前沿论文:
https://hyper.ai/papers
引入 NDformer 引导的符号搜索算法,以实现高效公式发现
研究人员提出了一种神经符号回归方法(Neural Discovery of Network Dynamics,ND²),即通过符号回归自动发现网络动力学公式的深度学习方法。为此,研究人员设计了一组网络动力学算子(network dynamical operators), 将原本在高维网络上的符号搜索问题,转化为一个等价的一维问题;同时,引入了由 NDformer 引导的符号搜索算法(NDformer-guided symbolic search), 以实现高效的公式发现。
如下图所示,网络动力学算子包含源算子 φ(s)、目标算子 φ(t) 和聚合算子 ρ,这些算子使网络动力学公式的表达不依赖于网络规模,从而将原本随网络规模指数增长的搜索空间压缩成与维度无关的一维问题。

借助网络动力学算子压缩搜索空间
此外,由 NDformer 引导的符号搜索算法通过结合神经网络与符号搜索方法的优势,显著提升了公式发现的效率与准确性。该算法由负责搜索的符号模块和负责引导的神经模块共同组成, 如下图所示。神经模块 NDformer 学习捕捉系统潜在动力学的隐含特征,并估计构成公式所需各个符号的概率分布;符号模块 MCTS 则依据 NDformer 预测的概率来选择符号,从而构建候选公式。

NDformer 引导的符号搜索算法架构图
对于每一个候选公式,奖励计算器会使用 Broyden–Fletcher–Goldfarb–Shanno(BFGS)算法将其中(若存在的)未知系数拟合到数据上,并返回一个综合评价准确性与简洁性的奖励值。那些拟合数据更好且公式更短的候选公式会获得更高的奖励,从而引导 MCTS 持续生成更优的候选公式。
具体而言,NDformer 是一种融合了图神经网络(GNN)和 Transformer 的神经网络, 用于捕捉复杂的网络动力学特征。NDformer 通过预训练,学习在给定网络结构和节点活动数据的条件下预测公式中的符号,并进一步引导 蒙特卡洛树搜索(MCTS) 模块,高效探索搜索空间,最终发现准确且简洁的网络动力学公式。

NDformer 的预训练过程
揭示多尺度、多学科复杂系统「涌现」现象的微观动力学规律
为了验证神经符号回归方法的有效性,研究团队将神经符号回归方法 ND² 应用于多尺度、不同领域的复杂系统,从细胞尺度到城市尺度,跨越基因、生态和社会网络,探索不同复杂系统背后的微观动力学规律,如下图所示。

在酵母细胞的分裂周期中,基因之间由环境介导的调控关系可以用一个全连接网络来描述(图 a)。基因表达水平(以表达的 mRNA 数量的对数来衡量)作为网络中各节点的活动量(图 b)。从聚合算子与非线性算子的作用顺序角度,对现有公式与修正后公式进行比较(图 c),并展示二者在算子结构上的差异(图 d)。
在基因表达网络中,研究团队发现的动力学公式在预测精度上相比已有经验公式提升了约 60%。 更重要的是,所发现的公式揭示了高阶交互作用:两个基因之间的相互调控不仅受其二者的影响,还会受到第三方基因的调节,从而呈现出复杂的微观动力学结构。
在菌群生态系统中,发现的动力学公式相比传统的 Lotka-Volterra 模型预测精度提升了约 56%, 并表现出已有模型中尚未出现的独特行为:个体数量更多的种群受其它种群的影响也会更弱。
与此同时,研究人员还将 ND² 符号回归方法应用于不同尺度城市系统中传染病传播机制的发现。研究选取了 7 个具有代表性的区域,覆盖从城市级到全球尺度的传播网络,并通过该方法从中自动发现了疫情传播的动力学方程,如下图所示。

使用神经符号回归方法揭示不同尺度城市系统的疫情传播规律
这些方程在预测上表现出高精度,并揭示了不同区域传播机制的差异。 以美国和中国为例,二者的自演化动力学呈现不同特征:在美国,传播过程持续稳定;而在中国,传播强度随感染数增加而减弱,体现出自抑制机制,反映出防控政策的有效性。在区域间交互动力学上,美国各州新增感染者数量依赖于其他州的新增情况,说明跨州流动促进了疫情扩散;而在中国,各省之间的传播关联极弱,表明跨区域传播受到严格控制。这些差异与两国防控策略的不同强度高度一致。
基于所发现的动力学方程,研究人员进一步分析了系统的宏观稳态特性。结果显示,中国和美国的疫情传播表现出截然不同的规律:在中国,当省际交通流量低于阈值时,感染数可长期受控;一旦超过阈值,感染数迅速激增,呈现典型的临界行为;而在美国,平均感染数随跨州流量线性增长,说明交通管控对整体传播影响较为平缓。这一研究不仅揭示了两国防控差异的动力学根源,也展示了神经符号回归方法提炼复杂系统跨尺度「涌现」背后微观机制的广泛潜力。
通过跨尺度、多学科的验证,研究团队不仅证明了神经符号回归方法的有效性,更展示了其在揭示复杂系统微观动力学规律、发现新科学知识方面的潜力,为基础科学研究和科学发现提供了全新的工具和思路。
关于团队
清华大学电子工程系城市科学与计算研究中心(FIB LAB)面向人工智能与数据科学前沿开展研究,聚焦基础模型、AI科学家、世界模型等关键技术创新,探索利用机器学习对跨尺度复杂系统进行建模、生成、仿真与控制,研究对象涵盖室内与开放环境中的机器人、无人机及人类行为,并贯通物理空间、数字世界与社会系统。实验室面向具身智能、城市科学与社会计算等应用方向,强调多学科交叉融合与大规模系统建模能力,服务相关领域的重大需求。
2340

被折叠的 条评论
为什么被折叠?



