摘要
时序因果发现是一项关键任务,旨在揭示时间序列数据内部的因果关系。最新的时序因果发现方法通常在预测任务上训练深度学习模型,以揭示时间序列之间的因果关系。它们通过分析训练模型中某些组件的参数(例如注意力权重和卷积权重)来捕捉因果关系。然而,这种从模型参数到因果关系的映射过程是不完整的,未能考察其他同样对因果发现至关重要的组件,例如全连接层和激活函数。
为了促进在时序因果发现中充分利用整个深度学习模型,我们提出了一种基于Transformer的可解释因果发现模型,称为CausalFormer。该模型由因果感知Transformer和基于分解的因果检测器两部分组成。因果感知Transformer通过一个设计的多核因果卷积,在预测任务中学习时间序列数据的因果表示,该卷积在时间优先约束下沿时间维度聚合每个输入时间序列。随后,基于分解的因果检测器利用提出的回归相关性传播方法,解释训练好的因果感知Transformer的全局结构,以识别潜在的因果关系,并最终构建因果图。在合成数据、模拟数据和真实数据集上的实验表明,CausalFormer在发现时序因果关系方面达到了最先进的性能。
引言
时间序列数据的因果发现(Temporal Causal Discovery)旨在从观测数据中识别变量间的因果关系,揭示驱动数据变化的机制。传统方法依赖随机对照试验,但受限于成本、伦理和可行性问题,需通过观测数据进行因果推断。
现有方法中,统计方法(如Granger因果、PC算法)依赖线性假设或独立性检验,难以捕捉非线性关系。深度学习方法(如TCDF、cMLP)通过训练模型(如CNN、Transformer)并分析局部参数(如注意力权重、卷积核)推断因果,但仅关注模型部分组件,忽略全结构(如全连接层、激活函数),导致因果映射不完整。
图1 CausalFormer的工作流程。
本文的主要贡献包括:
1.提出了CausalFormer——一种基于深度学习的新型时序因果发现模型,该模型由因果感知型Transformer和基于分解的因果检测器组成,能够通过解释训练好的深度学习模型的整体结构,学习更完整的时序因果关系(包括自因果关系和瞬时因果关系)。
2.这项可解释的因果感知Transformer模型通过多元因果注意力和多核因果卷积学习时序因果关系的表征,基于分解的因果检测器则借助提出的回归相关性传播方法,为回归模型实现基于分解的因果解释。该架构使因果感知Transformer具备完整可解释性,能够计算每个潜在因果关系的因果分数,并构建时序因果图。。
3.所提出的回归相关性传播是一种专为回归深度学习模型设计的新型可解释性方法。该方法改进了用于解释回归模型的分层相关性传播技术,并引入偏差相关性以实现更全面的可解释性。
4.在合成数据集、模拟数据集和真实数据集上进行了大量实验。结果表明,CausalFormer在发现时间序列因果关系方面具备最先进的性能表现。
相关工作
时间序列因果发现旨在从观测数据中推断变量间的因果关联,并遵循“原因先于结果”的时序优先约束。现有研究大体分为两类:基于统计的传统方法和基于深度学习的方法。统计方法包括Granger因果、约束类算法(如PC/PCMCI族)、基于噪声建模的TiMINo及其扩展,以及使用概率网络搜索的分数类方法;它们大多依赖线性假设或独立性检验,难以处理非线性与高维场景。
深度学习类方法通过训练神经网络完成预测任务,再借助模型参数(卷积核、注意力矩阵、邻接矩阵等)量化各时序变量对输出的贡献,从而反向推断因果。cMLP、cLSTM、TCDF、CGTST、CF-Bio 等模型都遵循这一思路,但由于只关注局部参数而忽视全网络结构,解释性不完整,导致因果发现结果受限。
模型可解释性研究提供了四类主流技术:基于规则的代理模型、隐藏语义分析、示例原型及基于归因的方法(扰动或分解)。然而,规则或原型方法难以直接生成时序因果规则,隐藏语义方法又忽略输入-输出之间的因果关联。相比之下,分解式归因技术(如Layer-wise Relevance Propagation)能够将输出逐层分解到输入,天然契合Granger因果思想,因此本文提出改进的回归相关传播(RRP),首次实现对Transformer整体结构的因果解释,弥补了现有深度因果发现方法仅分析局部组件的不足。
问题描述
可以将“时间序列因果发现”拆分为两步:
预测任务——让模型先学会“因果表示”:先让模型在预测任务里学会用所有序列的历史值预测目标序列的当前值,从而隐式捕捉因果规律;
因果发现——把学到的表示翻译成因果图:对训练好的模型做全局解释,把预测结果反向分解到各输入序列,量化它们对输出的贡献,最终输出一张带延迟标注的有向因果图。
方法逻辑
图2 CausalFormer的结构。
图2展示了所提出的Causal-Former结构,该结构由因果感知变换器和基于分解的因果检测器组成。因果感知变换器采用多核因果卷积,在时序优先性约束下学习时间序列的因果表征。随后,基于分解的因果检测器通过分析已训练的因果感知变换器参数,利用回归相关性传播算法计算潜在因果关系的因果分数。
因果感知变换器(Causality-Aware Transformer)
首先,每条原始时间序列通过一个线性嵌入层被投影到维度 d(d>T)的高维空间,得到

这一步既保留了序列的时序轮廓,又为后续注意力计算提供充足表达能力。紧接着,网络用一组可学习的因果卷积核 K∈ℝ^{N×N×T} 对每条序列做卷积:卷积核只覆盖历史时间点,并在左侧补零以保证“原因必先于结果”的时序优先约束;为了让模型能够学习“自身过去影响当前”的自因果,还把自卷积结果整体右移一位,避免未来信息泄露。随后,多变量因果注意力层把卷积后的结果作为 Value,用嵌入后的序列分别生成 Query 和 Key,计算注意力矩阵

其中 M 是可学习的稀疏掩码,τ 为温度系数,h 个注意力头再经线性层拼接输出。最终,两层前馈网络(FFN)与输出层给出预测 ˜X,整个模型用 MSE 加上对卷积核和注意力掩码的 L1 正则进行训练迫使网络忽略冗余连接,只留下真正影响预测的因果信号。

分解式因果检测器(Decomposition-Based Causality Detector)
当因果感知 Transformer 训练完成后,检测器从输出层反向逐层分解预测值,计算每个输入节点对最终预测的贡献——即“相关分数”。具体地,利用扩展的回归相关传播(RRP):先在每一层用泰勒一阶近似把输出 f(x) 写成输入贡献之和,再引入偏置项,使得

从而把全网络(包括全连接层和激活函数)都纳入解释范围;接着用梯度绝对值对相关分数做调制

图3 分解式因果检测器整体流程
实验部分
1. 实验设置
1)数据集
7 组共 73 个子数据集——4 组合成(diamond、mediator、v-structure、fork,共 40 个子集)、1 组线性 VAR、1 组非线性 Lorenz96、1 组真实 fMRI,另加一个运动捕捉 MoCap 作为案例。
2)评估指标
采用了标准的因果发现评估指标,如精度 (Precision)、召回率 (Recall) 和 F1分数 (F1-Score)。这些指标用于衡量模型预测的因果图与真实因果图之间的匹配程度,分别关注预测的准确性、完整性和综合性能。
3)对比方法
实验将CausalFormer与多种现有的时间因果发现方法进行了比较,包括: 统计学方法:如格兰杰因果 (Granger Causality)。 深度学习方法:如TCDF (Temporal Causal Discovery Framework) 和 PC-LiNGAM。
4)消融实验
为了验证CausalFormer中关键设计的有效性,论文进行了消融实验。具体来说,研究了回归相关性传播 (Regression Relevance Propagation, RRP) 这一核心解释方法的作用。通过比较使用完整RRP与使用其变体(忽略偏置项 bias_relevance 的简化版本)的性能,来证明RRP设计的必要性和优越性。
2. 实验结果
2.1 性能
图4 CausalFormer与基线方法的总体F1分数(平均值±标准差),其中每个基准测试的最高分以粗体标出
实验结果表明,CausalFormer在合成、模拟和真实数据集上均取得了最先进的 (state-of-the-art) 性能。 与对比方法(如Granger、TCDF、PC-LiNGAM等)相比,CausalFormer在精度、召回率和F1分数等关键指标上表现更优,尤其是在处理复杂因果结构时。
2.2 组件有效性验证
图5 CausalFormer不同变体在fMRI数据集上的实验结果,其中W/O表示移除相应模型组件。
消融实验证明,提出的回归相关性传播 (RRP) 方法是模型成功的关键。当移除或简化RRP(例如忽略偏置项的相关性)时,模型的性能显著下降。这验证了RRP,特别是其对偏置项的处理,对于实现完整的模型可解释性和准确的因果发现至关重要。
结论
这项工作开发了新颖的CausalFormer模型,用于时间序列上的因果发现。特别地,我们提出了因果感知Transformer来捕捉因果模式,并引入了多核因果卷积,在时间优先约束下沿时间维度聚合每个时间序列。此外,我们设计了一种基于分解的可解释性技术,称为回归相关性传播,它将逐层相关性传播方法改进用于回归模型,并引入了偏置相关性,以实现对因果感知Transformer的全局可解释性。相关性传播的结果不仅提供了可信的解释,还能推导出更优的因果图。根据在多个数据集上的实验评估,CausalFormer在发现时间序列的因果关系方面达到了最先进的性能。在fMRI-15子数据集和MoCap数据集上的案例研究也表明,CausalFormer具有很高的适用性。
尽管CausalFormer在发现时间因果关系方面表现出有效性,但在处理更复杂的时间因果模式时仍存在某些局限性。例如,CausalFormer为整个数据集生成一个静态的因果图,缺乏在线处理动态因果关系的能力。持续学习(continual learning)提供了一种潜在的可行方法,可以增强我们提出的因果感知Transformer和基于分解的因果检测器,使它们能够在不遗忘先前信息的情况下获取新的因果模式。此外,CausalFormer仅接受来自特定观察窗口的输入,无法识别多尺度的因果模式。对于未来的工作,我们旨在增强模型结构和可解释性技术以克服这些局限性。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
4万+

被折叠的 条评论
为什么被折叠?



