高速铁路短时强风风险预测
摘要
高速列车在高速运行时容易受到周围强风的影响而中断。为确保列车安全,一种有效的方法是在铁路沿线部署风速计,以报告实时和短期预测风速,并供调度员提前采取防护措施。然而,在某些情况下,仅依靠预测风速不足以准确描述风况。当预测风速略低于强风阈值时,难以判断是否会发生强风事件。本文首次尝试对高速铁路(HSR)沿线的强风风险进行预测。为此提出了一种新模型,称为基于多注意力层的多实例学习(MAL‐MIL)。其核心思想是:在预测风况条件下,估计实际风速超过阈值的可能性。该模型基于注意力机制和长短时记忆网络,首先生成未来风况的深度表征;然后,尽管缺乏风险真实标签,多实例学习过程仍可促进训练过程,从而量化这些深度表征与强风事件之间的关系。此外,考虑到模型的实用性,我们还设计了一个结果验证模块来解释报告的风险。最终在真实世界数据集上验证了该模型的优越性能。
索引词 —高速铁路,风速,列车运行安全。
一、引言
AWELL-KNOWN 影响高速铁路(HSR)安全运行的退化因素是周围强侧风,这种现象在众多铁路线路中经常发生,并会中断正常运行。为了确保在致命强风下的稳定运行条件,以往的研究考虑了两种策略。首先,大量文献提出了提高高速铁路系统对风力变化耐受性的方法。例如,Sanquer等[1], Carrarini 等[2]和 Dorigatti 等[3]对高速列车的接近真实可靠性分析方法进行了一系列探索,旨在设计更优的气动结构以抵消强风载荷的影响。其次,其他一些文献,如 Hoppmann等[4], LIU 等[5], Yu 等[6], LIU 等[7]以及 Wang 等[8], 研究了强风预警系统,以防止高速列车驶入危险区段。此类策略的一个示例流程如图1所示。沿铁路轨道部署的风速计收集实时风速数据,并将其传输到服务器,在服务器上进行预测。随后,生成的未来风况提供给调度员,可用于评估相应轨道未来的安全性。进一步地,调度员可对列车实施安全速度,从而通过提前调整速度来保证安全。上述两种策略在实践中均有效,并属于不同的研究领域。本文遵循第二种策略,提出实时预测未来风况。
为了提供能够提前指示强风的预测风况,以往的研究直接预测未来的风速[4]–[8]。随后,调度员进一步利用阈值来判断是否将发生强风。例如,如图2所示,在时间步t + 1的预测风速低于强风阈值,因此以往的方法不会报告未来将出现强风。然而,由于以下三个因素,强风事件仍可能发生:1)风速呈现上升趋势,2)预测风速接近阈值,3)基于机器学习方法并不总是完全准确的。在这种情况下,调度员可能会根据不准确的强风预测发生误操作。因此,一种能够衡量在预测风况条件下强风事件是否可能发生的方法将是更优的选择。此外,与提供不完整的预测相比,诸如可能性落在[0, 1]值范围内的细粒度描述,可以支持更精细的调度策略,增强未来自动化高速铁路系统的调度能力。
因此,我们提出一种风险预测方法来衡量强风事件的可能性。测量值将落在[0, 1], 范围内,表示不同程度的风。其核心思想是基于历史风速数据训练一个模型,并利用该模型生成实时风险预测。此外,考虑到机器学习模型输出结果的解释性需求,我们设计了一个结果验证模块以提供线索,从而能够对预测的高风险进行解释。在设计这些方法时,我们解决了以下三个挑战。
如何利用来自不同位置的风速数据来增强预测能力?
为了在高速铁路上实现全面覆盖,可以在轨道沿线密集部署风速传感器。在预测过程中应考虑相邻传感器之间的关系。因此,我们通过多注意力机制对不同的风速序列之间的相关性进行建模,该机制首次由Qin 等[9]提出。同时使用LSTM层提取时序依赖[10]。
如何在没有风险标签的情况下进行风险预测?
风险标签描述了每个时间步长发生强风的可能性。给定一个判断强风事件是否发生的阈值,历史风速数据仅反映了强风的存在与否,分别对应0%和100%的可能性。为了在[0, 1], 之间获得更精细的风险估计,我们实现了一个多实例学习框架,这是一种弱监督学习过程。所提出的框架评估一段时间内的风速数据,捕捉每个时间步长的时序特征与强风事件之间的关系,从而进一步推导出风险。
如何解释预测的强风风险?
我们提供一系列相关输入,以帮助调度员理解支持预测的风险。为了找到这些输入,我们构建了一个目标函数以最大化量化解释程度,并提出了一种贪婪算法作为求解方法。基于此类解释,调度员还可以判断预测是否可靠。我们将提供两个案例研究以进一步说明该方法的有效性。
综上所述,我们将主要贡献总结如下:
- 提出了一种新的强风风险预测模型。据我们所知,这是首次将预测风速与高速铁路系统中强风的发生关联起来并进行量化的工作。
- 通过利用多层注意力结构,我们将多实例学习扩展到包括输入序列之间的关系,从而大大提高了风险预测的性能。
- 我们收集了一个为期一年的真实风速数据集,该数据集包含沿京沪高速铁路系统连续部署的10个风速传感器。基于该真实世界数据集以及两个公开数据集进行了评估。结果表明,我们提出的模型MAL‐MIL具有有效性和优越性能。
- 所设计的结果验证模块通过提供支持报告强风风险的线索,提升了模型的实用性,并通过实验验证了其有效性。此外,还给出了两个案例研究以展示完整的处理流程。
本文的其余部分组织如下。第二节介绍相关工作。第三节给出问题的符号表示和概述。第四节展示模型的详细内容。第五节对所提出算法的性能进行评估,最后在第六节总结全文。
II. 相关工作
鉴于此前尚无关于强风风险预测的研究工作,我们首先综述风速预测领域的相关研究。此外,我们还回顾了与多实例学习相关的前期文献,多实例学习是本文所采用的关键技术。
对于短期风速预测,许多因素被视为影响特征,例如温度、湿度、气压、地形等。为了量化这些因素与风速预测之间的关系,以往的研究大致可归纳为两个主要方向:物理模型和统计模型[11]。物理模型(如著名的数值天气预报[12] )被提出用于明确描述大气过程。因此,只要初始风况以及上述因素能够被准确测量,就可以预测未来风况。然而,考虑到铁路沿线环境的复杂性和多样性,在高速铁路中部署物理模型将极为费力且效率低下。此外,与统计模型相比,物理模型通常在预测时域较长时性能较好[13],而在短期预测中可能不可靠[14]。因此,仅利用历史风速进行预测的统计模型可能更适用于高速铁路系统。以往的研究中使用了不同类型的统计模型,包括 ARMA/ARIMA [13], [15],[16], [17],[18] 支持向量机回归和人工神经网络[6]–[8],[11],[19]。除了这些模型外,一些新颖的策略,如混合方法[20]–[22]和结构学习[23], 也被用于提升风速预测的性能。当目标位置的历史数据较少时,Hu等[24]通过迁移数据丰富区域所获得的信息,使目标位置也能得到令人满意的预测结果。然而,这些研究大多忽略了预测中的不准确问题,而这一问题可能显著干扰铁路运营人员的决策过程,例如第I节中所述的场景。此外,尽管部分研究已关注到不准确问题,例如Wang等[8], 提出的上下界风速预测方法,但目前尚无研究针对高速铁路系统中的强风风险预测问题进行探讨。
多实例学习(MIL)是一种广泛使用的弱监督学习方法,旨在处理一组弱标注数据,例如标记包,每个包包含多个数据实例。与大多数需要为每个数据实例提供标签才能进行有效训练的监督学习方法不同,MIL仅需对数据实例的包进行标注,因此可以显著减少标注工作量。尤其是近年来,为解决该问题所收集的数据量急剧增加[25]。我们提出的风风险预测模型属于MIL的技术范畴。在以往的研究中,已有多个应用领域被自然地建模为MIL问题,包括计算机视觉[26]–[29]和文档分类[30],[31]。上述所有研究在其各自领域均取得了令人满意的效果,但它们并不适用于我们的问题,即如何将MIL应用于时间序列数据,并预测与时间相关的事件的风险。最相关的工作是 Janakiraman等人提出的DT‐MIL等。[32] 在[32], 中,作者设计了一种时序MIL结构,用于判别每个输入时间序列在不同时间步的重要性,以在包异常时定位异常情况。然而,DT‐MIL侧重于前兆挖掘,它将每路时间序列视为独立输入,忽略了它们之间的关系。本文聚焦于实时风险预测,引入注意力机制以提取多路风速序列之间的相互关联性。
III. 问题概述
A. 符号说明
MAL‐MIL模型的输入是风速数据,这些数据为多个时间序列。我们首先将这些时间序列分为两类,分别命名为目标信号和相关信号。
-
目标信号 。目标信号表示直接反映事件发生的时间序列。例如,如图3所示,五个风速传感器沿铁路均匀布置。在实际高速铁路系统中,每个传感器表示其附近铁路区段的风速。为了全面覆盖所有铁路沿线,相邻传感器之间的距离通常较小,因此它们之间可能存在强相关性。为了预测铁路任意区段的未来强风风险,将对应的风速传感器(如图3中的第三个传感器)视为目标风速传感器,从而其生成的风速即为目标信号。我们将目标信号记为tar。一般而言,在高速铁路系统中,风速超过15米/秒被视为危险情况,因此我们使用阈值thre来判断是否存在强风事件。只有当tar大于thre时,才认为存在强风事件。
-
相关信号 。相关信号是指能够影响目标信号但并非事件直接指示器的时间序列。在图3中,由于靠近目标风速传感器的风况也可能对目标信号产生影响,因此我们将相邻传感器测量到的风速定义为相关信号,记作 RS。
目标信号和相关信号均属于模型的输入。接下来,我们用Tb表示一个时间段的长度,如果起始时间步为t1, ,则结束时间步为tTb。假设在每个时间步上,都有一个向量表示来描述目标信号的状态。因此,该时间段内的向量表示构成一个时序包,显然,该包的大小为Tb。为了标注包标签的真实标签,我们采用多实例学习中的标准假设[33],,即只要包中至少有一个实例为正类,则该包被视为正类;否则,包标签为负类。因此,一旦在t1到tTb时间段内的任意时间步上,tar高于thre,则包标签(记为blt1)将被标注为1,否则将被标注为0。
接下来,在包内的每个时间步tm,我们定义两个指标 RSt和tart,其中t = tm − T。这里,我们使用T表示历史数据的长度,该历史数据将用于获取时间步tm的深度表示。RSt=(rs 1 t , rs2t , … , rstn) ᵀ ∈ R n×T,,其中每个rs. t=(rs . t , t, rs. t ,t+1, … , rs. t ,tm −1) ∈ R T表示从t到tm −1的一个相关信号。n是相关信号的总数。tart=(tart, tart+1, … , tar tm −1) ∈ R T,表示从t到tm −1的目标信号的值。
为了实现所提出的MAL‐MIL模型,有两个不同的步骤,称为训练步骤和运行步骤。我们对其定义说明如下。
- 训练步骤 。在训练步骤中,MAL‐MIL模型基于训练数据集和标注的包标签进行训练和调优。损失通过预测包标签bl与真实标签之间的差异来衡量。
- 运行步骤 。在运行步骤中,训练好的MAL‐MIL模型旨在生成高风险值,而不是生成bl。该过程利用了训练步骤中获得的相似参数,但输出结果不同。
详细演示见第四节。我们用P=(pt1,pt2,…,ptT)ᵀ ∈ RT表示一个包在运行步骤中的输出。t1,t2,…,tT是该包内的时间步。每个p. ∈ R代表对应时间步的发生风险。运行步骤实时生成风险值。
B. 问题
根据上述提供的符号,我们接着引入三个问题。第一个问题是预测包标签,这是训练步骤中的目标。我们将此问题定义为包标签预测问题:
$$ bl= f_b(RS, tar) $$
问题在于获得函数 $ f_b $,该函数将输入时间序列映射到包标签。
第二个问题是实时预测强风风险,我们将其定义为风险预测问题:
$$ P= f_r(RS, tar) $$
$ f_r $是期望的模型。然而,尽管风险预测问题的输出与包标签预测问题不同,但用于 $ f_r $ 的参数与已训练的 $ f_b $ 的相应参数相似。详细描述将在第四节中给出。
最后一个问题是结果解释问题。在生产场景中,大多数用户并非专业的数据科学家,因此需要一些线索来解释预测的高风险。我们旨在通过搜索最相关输入序列来解决此问题。该问题可以表述为:
$$ I= f_j(RS, tar, P) $$
I是获得的最相关输入序列。
IV. 模型描述
在本节中,我们分别展示了求解上述三个问题的步骤。MAL‐MIL的整体结构如图4所示。
A. 包标签预测
MAL‐MIL的整体思路包括两个步骤:首先,将DA‐RNN [9]模型用作特征提取器,以 RSt 和tart作为输入,并生成多个向量 St1=(st1, st2,…, stTb)ᵀ ∈ RTb×hd。每个stm表示在时间步tm时目标信号的深度表示,其中t1 ≤ tm ≤ tTb。hd是一个用户定义的超参数,表示stm的大小。接下来,生成的 St1被用于构建一个多实例学习过程。我们将在下文介绍具体的实现细节。
在包内的每个时间步tm ,对RSt和tart的历史数据 (其中t =tm −T)通过基于DA‐RNN的结构进行处理,生成上下文向量Ct=(ct, ct+1, … , ctm−1)ᵀ ∈ RT×hm,并进一步产生相应的深度表示stm。如图4所示,两个注意力层首先为时间步t + l提取两个权重列表al和el,分别表示不同相关信号和历史时间步的重要性。t + l表示历史数据中的时间步,且l < T。利用上述两个权重列表计算上下文向量。由于该过程与DA‐RNN模型类似,我们将其总结为:
$$ Ct= f_{DR}(RSt) $$
其中$ f_{DR} $表示DA‐RNN模型,详细描述可参考[9]。
然后,我们将 Ct与tart结合,例如在时间步t+l −1:
$$ Lt+l−1= wᵀ_c[tart+l−1; ct+l−1]+ b_c $$
其中[.;.] 表示拼接操作,wc 和 bc 是两个可训练参数。新计算出的Lt+l−1 被传入一个 LSTM层 [10] 以建模时序依赖:
$$ ft+l= \sigma(w_f[dt+l−1; Lt+l−1]+ b_f) $$
$$ it+l= \sigma(w_i[dt+l−1; Lt+l−1]+ b_i) $$
$$ ot+l= \sigma(w_o[dt+l−1; Lt+l−1]+ b_o) $$
$$ cst+l= ft+l \odot cst+l−1 + it+l \odot \tanh(w_{cs}[dt+l−1; Lt+l−1]+ b_{cs}) $$
$$ dt+l= ot+l \odot \tanh(cst+l) $$
σ表示sigmoid函数。w.,b.是可训练参数。ft+l、it+l、 ot+l和cst+l分别表示LSTM单元中的遗忘门、输入门、输出门和细胞状态。因此,在从t到tm−1的时间持续时间内 的任意时间步t +l,我们得到一个隐藏状态dl+1。最后,如图4所示,通过LSTM单元对Ct和tart进行递归处理后,得到stm= dT,即包内tm的深度表示。我们将上述特征提取过程总结为:
$$ d_T= f_{FE}(RSt, tart) $$
每个 $ st_m \in St_1 $ 是来自 $ tm − T $到 $ tm −1 $的输入信号的深度表示,并由:独立计算。
$$ st_m = f_{FE}(RSt_{m −T}, tart_{m −T}) $$
因此,通过计算每个 $ st_1, st_2,…, st_{Tb} $得到St_1 。
在获得St_1 后,首先通过基于tanh的全连接层得到隐藏状态向量 Zt_1 =(zt_1, z_t_2,…, z_t_{Tb})ᵀ ∈ R^{Tb × hz}
$$ Zt_1 = \tanh(w_{fc}St_1 + b_{fc}) $$
其中wfc和bfc是待学习的参数。然后,输出Zt1通过逻辑回归层:进行处理
$$ Pt1= \sigma(w_{lr}Zt1+ b_{lr}) $$
wlr和 blr是可训练参数。Pt1包含 (pt1,pt2,…,ptTb)ᵀ ∈ R,,其中每个 ptm是一个实数值。然后,使用聚合函数 fa(.)将 Pt1转换为包概率:
$$ blt1= f_a(Pt1) $$
其中 blt1表示在时间段 (t1, tTb)内的预测包标签。此处使用最大值函数作为 fa(.)以生成 Pt1的最大值。损失函数计算 blt1与标注的包标签之间的损失值。对于包含强风事件的正包,我们将其标注为 1,否则标注为 0。考虑到包内发生了一个事件,训练过程将推动 Pt1中的至少一个 ptm接近 1以减少损失。相反,当该包为负包时,Pt1的所有值都将被推向 0。因此,尽管风险标签不完整,但在分析所有历史数据后,与强风事件相关的深度表征将获得较高的风险预测。
为了训练模型,我们使用平均欧氏距离作为损失函数:
$$ D= \frac{1}{N} \sum_{i=1}^{N}( \hat{b}
{li} − b
{li})^2 $$
其中N是训练样本数量。
B. 风险预测
风险预测过程在运行步骤中实施,其中我们采用训练步骤中预先训练好的模型,以实时生成强风风险。由于深度表示stm与强风事件的相关性越高,其ptm值就越高。因此, Pt1反映了事件发生的可能性,并可直接用作风险度量。在运行步骤中,如图4所示,不生成bl,而是将中间产物Pt1作为输出并在每一步生成,从而实现实时预测下一步的未来强风风险。此外,由于包内每一步之前至少有T个时间步,因此在实现过程中,风险预测将在t+T步开始。
C. 结果验证
为了确保运行安全,通常在检测到或预测到强风时,铁路调度员会通知相关列车减速。这种应对措施会直接打乱列车时刻表并降低服务质量。因此,当预测到强风且缺乏对预测的高风险足够依据时,决策过程将陷入困境。为缓解该决策过程中的问题,我们设计了结果解释模块,以提供预测解释。
关键思想是找出一些输入时间序列,其数值变化对预测风险的增加具有更高的影响。从前面的章节可知,在运行步骤中可以得到Pt1。假设在时间步t1+k处的风险概率 pk表示高风险,则我们迭代地将部分输入序列重置为前一时间步的值,并获得重新计算的概率pk’,I。其中,I表示将被重置的选定输入序列的集合。两个概率之间的差异通过:
$$ \Delta pk,I= \max(pk − pk’,I, 0) $$
如果新生成的 pk’,I 相较于原始的 pk 有显著下降,则我们将当前序列 I 视为导致高 pk 的有效线索。因此,我们的方法旨在检索一组输入序列,以最大化 pk 与 pk’,I 之间的差异。我们将该解释模块的目标函数表述为一个输入序列选择问题(ISSP):
$$ \max_{I⊂RS∪tar,|I|≤v} f(I)=\Delta pk,I $$
v 表示一个预分配的参数,用于指示列表 I 中重置时间序列的最大数量。
为求解目标函数,我们首先证明公式18中提到的组合任务是NP难的。
证明 :为了概述我们的证明,我们通过将一个已被证明为NP难的问题——最大覆盖问题(MCP)[34],——归约到我们定义的ISSP的一个实例来实现。MCP的目标是从一组集合(S1,…, Sl)中选择k个集合,以最大化被覆盖元素的总数。ISSP的一个特例是:对于每个包含m个输入序列的集合,其目标得分为m,且每个输入序列的增量得分为1。因此, MCP中的每个集合Si对应于ISSP中每一个可能的输入序列组合,MCP中的每个元素对应于ISSP中的每个输入序列。因此, MCP等价于ISSP的一个特例,我们得出结论:公式18至少与 MCP一样难。由此证得ISSP是NP难的。
我们设计了一种贪心算法来寻找列表I。首先,对于目标时间步k,我们计算其风险pk。然后,构建一个外循环,其中t从k − 1递减至0,表示不同的重置长度。内循环即 ISSP求解器,用于直接筛选出I。以tk=k − 1为例,给定当前已选列表I,我们定义f_MM(I, tk)表示当I ∈{RS ∪tar}被重置时计算得到的风险。在重置过程中,我们将每个输入序列e ∈ I从时间步k −1到k的值替换为它们在时间步 k −1的值。接着,我们计算当一个新的输入序列i被重置时的边际增益:
$$ \Delta f_{MG}(i|RS ∪ tar\ I)= f_{MM}(I ∪i) − f_{MM}(I) $$
在每次内循环迭代中,我们从计算值最高的i ∗选择$\Delta f_{MG}(i |RS ∪tar\I)$。当当前最大边际增益为负类时,内循环中断。详细步骤如算法1所示。在每次外循环中,使用一个阈值bar来进行早停。当新计算的风险pc与原始风险pk之间的差异足够大时,便采用当前的I并终止循环。否则,在所有外循环结束后,选择使f_MM(I)最大的I。最后,将所选I的图形提供给调度员,其中包含这些绘制的输入信号在tk到k期间变化导致当前高风险的信息。
算法1 结果验证
输入: 训练好的MAL‐MIL模型 f_MM,目标时间步 k,输入序列 RS 和 tar,解释性能度量 bar
输出: 列表I,时间步长tk。
1: pk ←f_MM(RS, tar, k)
2: I ← ∅
3: for tk ∈(k −1, k −2, … ,0) do
4: Q← ∅
5: while |I| <v do
6: 重新计算边际增益 $\Delta f(i|随机选择(RS) ∪tar\I)$ 通过 公式19。
7: i∗ ←最大值点i $\Delta f(i|随机选择(RS) ∪tar\I)$
8: if $\Delta f(i∗|随机选择(RS) ∪tar\I) ≤ 0$ then
9: break
10: end if
11: I ← I ∪i∗
12: end while
13: pc ←f_MM(I)
14: if (pk −pc)/pk ≥bar then
15: return I, tk
16: end if
17: Q← Q∪[I,tk]
18: end for
19: [I, tk] ←最大值点I,tk f_MM([I, tk] ∈ Q)
20: return [I,tk]。
假设有n个信号输入,则最耗时的步骤是步骤7,其时间复杂度为O(n)。因此内循环中的时间复杂度为O(vn),从而包含外循环的整体时间复杂度为O(kvn)。
V. 评估
为了分析所提出的方法,我们首先介绍针对不同问题的评估指标。然后,我们引入了三个实验数据集,包括一个真实风速数据集和两个开源数据集。实验结果表明,结合时间信息和相关信号并利用注意力机制,确实能够提升目标事件的风险预测性能。同时,所提出的解释模块的有效性也得到了验证。
A. 数据集
我们的模型MAL‐MIL的目标是向铁路调度员报告短期强风风险。因此,需要一个沿铁路的真实风速数据集系统收集的数据用于实验。此外,我们还在两个标准的开源数据集上测试了所提出的模型,以证明其有效性。
1) 真实风速数据集 :为了监测实时风况并在发生强风时向调度员发出警告,已在京沪高速铁路沿线安装了大量风速传感器。这些传感器采用超声波风速测量技术,每秒采集一次风速数据(米/秒)。然后,数据被传输到本地数据存储服务器,并添加时间戳。中央数据库为每个本地数据存储服务器分配监听端口,风速数据最终通过TCP/IP协议进行集成。为了在铁路沿线实现良好的覆盖,风速传感器以10公里的间隔均匀部署。本研究所用数据集即来自该真实风速数据库,实验采用了连续10个风速传感器的一年数据,总时间段为2017‐01‐01至2017‐12‐31,测量频率为 1赫兹。我们每120秒取最大值作为一个新的数据点。该数据集的直方图分布和核密度估计如图5所示。四种不同的 thre 10米/秒、14米/秒、15米/秒和18米/秒,将分别用于定义强风事件的发生,并在实验中单独使用。数据集的统计信息汇总于表II。
显然,包样本极不平衡。因此,在训练步骤中,我们随机选取数量相近的正/负包来调整模型。此外,在实验中,我们将每个风速传感器独立地视为目标信号,并利用相应的周围传感器作为相关信号。
2) 公开数据集 :还将使用两个公开数据集, SML2010数据集和NASDAQ100股票数据集 ,以分析 MAL‐MIL模型的性能。我们分别选择SML2010中的天气温度和NASDAQ100中的纳斯达克指数作为目标信号。数据集中的其他特征被视为相关信号。thre在这两个数据集 中分别为16.6和4814。当目标信号超过thre时,我们标注事件的正类标签。这两个数据集的统计信息也在表II中进行了汇总。
B. 实验设置
在本小节中,我们首先分别介绍预测任务和合理性验证任务的基线方法。然后,我们提供实验中的参数设置。
1) 基线方法 :对于风速风险预测,此前几乎没有可供比较的研究工作。我们发现,DT‐MIL模型[32]曾尝试对航空安全事件进行解释,该模型也可用作风速数据的风险预测器。DT‐MIL的核心思想是为最重要的时间步分配最高的值。因此,类似于所提出的MAL‐MIL,我们将 DT‐MIL中分配的值用作风险度量,并将其作为包标签预测任务和风险预测任务的基线方法。
对于解释模块,我们使用随机选择(RS)方法与所提出的贪心选择进行比较。在通过所提出的解释方法获得结果后,RS方法将随机选择相同数量(|I|)的输入序列作为当前风险预测的线索。为了说明所提出方法的有效性,我们将进一步引入一个针对解释结果的评估指标,并比较这两种方法的性能。
2) 提出的MAL-MIL模型 :在训练过程中,我们使用 Adam优化器[35]来训练整个模型。批量大小为128,学习率从0.002开始,每200次迭代后减少10%。网络的其他参数在每次实验中有所不同,将分别进行介绍。超参数的确定高度依赖于数据集,我们遵循来自[36]提出的调参策略。因此,我们首先调整学习率,将其作为初始学习率,以改善损失曲线。我们测试了多个衰减率,并选择10%。然后调整批量大小的选择以提高训练性能。对于每层中的神经元数量,我们比较了{32, 64, 100, 128, 200, 256, 512}的结果,从而得出针对相应数据集的最佳组合。
C. 评估指标
为了评估标签预测任务和风险预测任务的性能,我们引入了多个标准评估指标来分析实验结果。然后,进行评估为了评估结果解释模块的有效性,我们提出了一种专用的评估指标来衡量“已证明的风险”。
1) 预测性能度量 :首先,对于包标签预测任务,我们将其视为一个二分类任务。原始预测为 max(Pt1),其中 Pt1 ∈[0, 1]。为了获得二值结果 0/1,我们使用 0.5 作为阈值。因此,当生成的bli大于 0.5 时,预测结果为 1,否则为 0。由此可以计算输出的真正例(TP)、真负例(TN)、假正例(FP)和假负例(FN)值。最后,可采用精确率(TP/(TP+ FP))、召回率(TP/(TP+FN))和 F1分数(2 ·(精确率 · 召回率)/(精确率+召回率))来衡量包标签预测任务的性能。
对于风险预测任务,我们使用ROC曲线下面积( AUC)来衡量性能。首先,根据第三节中定义的thre,我们可以依据目标信号为每个时间步标注事件发生标签:若目标信号低于thre,则该时间步标记为0,否则标记为1。然后,针对所有步骤的预测风险,可计算在多个阈值下的真正类率和假正类率。因此,得到受试者工作特征曲线(ROC)曲线,而AUC即为ROC曲线下的面积。
2)
解释性能度量
:为了量化解释结果,我们提出了一种名为“归因”(IM)的度量方法。如果目标风险为pk,解释得到的结果为[I,t],,则我们首先将I从t到 k的值替换为它们在时间步t的值。然后可以得到一个新的预测风险 pc=f_MM(I, t)。因此,IM 由:
$$ IM= \frac{pk − pc}{pk} $$
IM的取值范围是[0, 1],,值越高,解释性能越好。
D. 预测任务实验
采用两个不同的thre值,我们首先在真实风速数据集上进行预测实验。该数据集被分为两部分:第一部分为 2017‐01‐01至2017‐11‐30,第二部分为2017‐12‐01至 2017‐12‐31。进一步地,我们将第一部分数据按3:1的比例划分为训练数据集和验证数据集。包的长度(Tb)为10。对于每个传感器,目标信号是其对应的风速数据,相关信号是周围传感器的数据。我们为每个目标传感器使用4个周围传感器。例如,对于传感器1,目标信号是其自身收集的风速数据,相关信号来自传感器2至传感器5;对于传感器5,目标信号是其自身收集的数据,相关信号来自传感器3、4、6、7的风速数据。关于超参数,除使用传感器8作为目标信号的情况外,所有传感器的两个LSTM层(hm, hd) 和全连接层(hz)的隐藏向量大小分别为32、32、64。在以传感器8为目标信号的实验中,这三个参数分别为32、32、128。
基于真实世界数据集的预测结果如图6(a)和图6(b)所示,表示F1分数和AUC值。F1分数用于量化包标签预测任务的性能,而 AUC用于衡量风险预测结果的性能。从这两个图中可以明显看出,对于不同的thre值,所提出的MAL‐MIL模型的平均F1分数和AUC始终优于DT‐MIL模型。这表明我们的模型具有更好的整体预测性能。详细的实验结果总结于表V −VIII(见附录)。一个有趣的实验结果是,两个模型之间的召回率差异非常大,其中DT‐MIL通常远远落后。原因是所提出的模型能够提取输入之间的时序和序列间依赖关系,因此在目标传感器上的风速为由于周围风力的影响而增加。此外,对于直接反映风险预测性能的AUC值,MAL‐MIL模型的平均值超过0.99,这已经是很好的预测结果。
由于我们的另一个目标是实时生成强风风险,因此我们计算了每个时间步推理过程的时间消耗。我们的模型运行在配备Intel Core i9‐9820X 3.30GHz CPU和TITAN RTX GPU的64位Linux服务器上。为了计算每次推理的时间持续时间,我们在三天数据上进行了预测实验,该数据包含2160个时间步。对于我们的模型MAL‐MIL,总体持续时间为470秒,因此每次推理的时间消耗为218毫秒。对于DT‐MIL,总体持续时间为175秒,每个时间步的推理持续时间为81毫秒。由于所提出模型的网络结构比基线模型更复杂,因此预测耗时更长。然而,每次推理的时间消耗远小于1秒。因此,该模型足以满足实时应用的需求。
为了进一步评估该方法的有效性,我们在两个公开数据集上提供了实验结果。每个数据集按5:2:2的比例划分为训练、验证和测试数据集。超参数hm、hd、hz分别为 128,128,200。结果总结于图7(a)和图7(b)中。在所有考虑的指标中,MAL‐MIL优于DT‐MIL模型。详细结果见附录中的表IX。与真实风速数据集上的实验类似,召回率获得了最显著的提升。
E. 结果验证实验
然后我们评估了论证模块的性能。使用上述三个数据集,我们计算通过提出的结果验证模块(RJ)对测试数据计算平均 IM,并将性能与RS方法进行比较。我们在真实世界数据集上的实验结果如表III所示。在每个传感器的测试数据上,我们评估了平均IM。从表中可以看出,所提出的RJ方法明显优于RS方法,验证了RJ方法的有效性。
在公开数据集上也获得了类似的结果,并在表IV中展示,其中明显表明所提出的RJ方法能够有效实现更高的IM。
F. 案例研究
在本小节中,我们展示了MAL‐MIL的整体流程以及基于真实风速数据集的结果验证。此外,通过分析计算得到的注意力权重,我们阐明了所提出的模型如何捕捉相关信息以预测目标信号中的强风风险。
首先,采用所提出的模型MAL‐MIL,我们可以在每一步获得实时强风风险预测,结果如图8所示。热图颜色越深,表示风险越高。假设调度员在时间步21收到关于传感器2的高风险报告,调度员可能希望了解模型输出该高风险值的原因。因此,可以使用所提出的RJ方法生成解释。结果如图9所示,其中确定了两个输入及对应的t 。这些图表提供的信息表明,由于传感器3和4的风速呈现上升趋势且已超过强风阈值,因此传感器2在时间步21的预测强风风险接近1。此外,我们还考虑了另一种情况,即预测的风险可能被调度员拒绝。对于时间步10的传感器7,根据RJ可得到如图10所示的解释结果。其中,最相关的输入序列是传感器4和传感器8的风速。显然,这两个序列均小于强风阈值,且不具有上升趋势,因此我们可以判断传感器7的预测的高风险可能是一个错误预测。
为了验证上述两种解释情况,我们在图11中展示了传感器2和传感器7在每个相应时间步的实际风速。显然,传感器2的风速已超过阈值,而传感器7的风速约为10米/秒。因此,基于解释结果的上述推断得到了验证。
然后,为了说明不同的相邻传感器如何对目标传感器的风险预测做出贡献,我们可视化了在预测传感器2在时间步21的风险时相关信号的重要性权重。结果如图12所示。显然,所有四个相邻传感器都被分配了权重,以便它们的历史信息都被用于生成目标传感器的强风风险。不同重要性权重表明,在此时间步,传感器4和5更为重要,而传感器1和3则较不重要。
VI. 结论
本文提出了一种模型MAL‐MIL,用于估计实时强风风险。该模型专为高速铁路系统设计,其中风况的早期估计对运行安全至关重要。为了建模传感器之间的复杂依赖关系,我们采用了多注意力机制以及多个LSTM层来提取特征。同时,引入多实例学习过程以缓解风险真实标签缺失的问题。此外,为了帮助调度人员理解预测的高风险,并提高区分正确与错误预测的能力,我们设计了一个结果验证模块。在实验中,所提模型在收集的数据上的AUC超过 0.99,展示了良好的预测性能。通过与随机选择方法的比较,也说明了结果验证的有效性。未来,随着基于物联网的感知技术[37],[38],的进步,我们将进一步研究强风预测与铁路控制过程的融合,旨在提高高速铁路系统的自动化水平。
390

被折叠的 条评论
为什么被折叠?



