用于雷达脉冲序列解交织的交织隐马尔可夫过程推断
摘要:隐马尔可夫过程(HMP)已被广泛用于建模雷达脉冲序列。在电子侦察系统的雷达信号解交织任务中,截获的雷达脉冲序列被假设为交织隐马尔可夫过程(IHMP)。在此背景下,本文提出一种生成模型来表示交织隐马尔可夫过程,并将解交织问题重新表述为后验推断任务。为计算后验概率,本文首先设计了一种精确推断算法。然而,由于隐状态表示的组合特性,精确推断在计算上具有不可解性。为解决这一局限性,本文进一步提出了一种基于采样的方法和两种基于变分的方法,为后验计算提供了可解方案。最后,基于似然比检验推导了错误概率的理论下界,且所提方法被证明能较好地接近该下界。在多种雷达脉冲信号数据集上的仿真验证表明,采用结构化近似的变分推断在解交织准确性和计算效率之间实现了更优的平衡,使其成为精确推断方法和基于搜索的方法的一种极具潜力的替代方案。
关键词:解交织;期望最大化;隐马尔可夫模型;马尔可夫链蒙特卡洛;变分推断
一、引言
隐马尔可夫过程[1]是一类离散时间有限状态齐次马尔可夫链,可通过离散时间无记忆不变信道观测得到。该信道由一组以马尔可夫链状态为索引的有限转移密度表征。隐马尔可夫过程通常用隐马尔可夫模型(HMM)表示。然而,在侦察系统[2,3]中,观测结果由多个隐马尔可夫过程的输出构成。本文研究如下问题:
设侦察系统的观测序列为p={pt}t=1Tp = \{p_t\}_{t=1}^Tp={pt}t=1T,其中下标ttt表示到达顺序(AO),上标TTT表示序列长度。该观测序列由多个隐马尔可夫模型的交织输出组成。交织机制通过马尔可夫切换过程PswP_{sw}Psw建模。存在MMM个独立分量随机过程P1,…,Pm,…,PMP_1, \dots, P_m, \dots, P_MP1,…,Pm,…,PM,每个过程均用一个隐马尔可夫模型建模。设φ1,…,φm,…,φM\varphi^1, \dots, \varphi^m, \dots, \varphi^Mφ1,…,φm,…,φM为一组非空有限集合,定义字母表A=φ1∪⋯∪φm∪⋯∪φMA = \varphi^1 \cup \dots \cup \varphi^m \cup \dots \cup \varphi^MA=φ1∪⋯∪φm∪⋯∪φM。称AAA为字母表,每个φm\varphi^mφm为第mmm个子字母表。第mmm个隐马尔可夫模型定义在子字母表φm\varphi^mφm上,设φm={φ1m,…,φkm,…,φKmm}\varphi^m = \{\varphi_1^m, \dots, \varphi_k^m, \dots, \varphi_{K^m}^m\}φm={φ1m,…,φkm,…,φKmm},其中φkm\varphi_k^mφkm表示φm\varphi^mφm中的第kkk个字母,KmK^mKm表示φm\varphi^mφm的规模。每个字母被建模为高斯随机变量。设Π={φ1,…,φm,…,φM}\Pi = \{\varphi^1, \dots, \varphi^m, \dots, \varphi^M\}Π={φ1,…,φm,…,φM}表示字母表AAA的一个划分,且PswP_{sw}Psw定义在字母表Π\PiΠ上。
基于上述定义,多个隐马尔可夫过程的交织过程I(P1,…,PM,Psw)I(P_1, \dots, P_M, P_{sw})I(P1,…,PM,Psw)的生成方式如下:在每个时间步ttt,切换过程PswP_{sw}Psw生成一个索引mmm;随后,分量过程PmP_mPm被激活[1],并从字母φkm\varphi_k^mφkm中采样输出一个观测值,其中字母服从概率密度函数(pdf)fφkm(⋅)f_{\varphi_k^m}(\cdot)fφkm(⋅),且kkk对应于当前时刻分量过程PmP_mPm的隐状态索引。假设分量过程与切换过程相互独立。解交织问题即根据观测序列ppp重构由PswP_{sw}Psw生成的索引序列。
图1 含两个分量过程的交织隐马尔可夫过程及解交织任务示意图
1.1 研究动机
上述问题源于电子侦察系统中的雷达脉冲解交织任务[4]。电子侦察接收机旨在截获并分析多个雷达源发射的雷达脉冲序列,需区分每个脉冲并将其归属到对应的辐射源。不同雷达的脉冲按时间顺序被观测,每个脉冲由脉冲描述字(PDW)表征,PDW包含到达时间(TOA)、脉冲宽度(PW)、射频(RF)和脉冲幅度(PA)等参数,其含义如图2所示。本文中,雷达发射的脉冲序列用隐马尔可夫过程表示,对应分量过程PmP_mPm;子字母表φm\varphi^mφm表示某一雷达脉冲序列的PDW值集合;切换过程PswP_{sw}Psw反映多个雷达脉冲序列的交织机制。
图2 某雷达发射的两个脉冲示例,下标表示每个脉冲的到达顺序
1.2 相关工作
文献中已提出多种雷达脉冲序列解交织技术。传统方法通过累积量差直方图(CDIF)[5]、序贯差直方图(SDIF)[6]等技术识别脉冲重复间隔(PRI)模式。此外,文献[7]提出一种基于最优传输距离的凝聚层次聚类方法,利用PA和TOA信息关联PW与RF聚类。然而,这些方法的表示能力有限,无法有效捕捉信号序列中的潜在模式,在更复杂环境下性能可能下降。
近年来,基于模型的方法受到广泛关注。这类方法主要利用概率模型表示脉冲序列中的潜在模式。具体而言,文献[8]采用高斯模型表示单个雷达发射的脉冲序列,再通过高斯混合模型(GMM)对混合脉冲序列建模;文献[9]提出贝叶斯非参数高斯混合模型用于混合脉冲序列建模,并采用变分推断实现解交织,验证了变分推断在在线解交织中的有效性。但这些方法不适用于采用多射频或多脉冲宽度的捷变雷达。
针对雷达采用多射频或多脉冲宽度的复杂场景,相关研究已逐步展开。一种极具潜力的方法是利用马尔可夫链增强雷达脉冲序列的表示能力。文献[10]提出交织马尔可夫链的概念,随后Seroussi将其扩展为交织马尔可夫过程(IMP)[11,12,13];文献[14]将交织马尔可夫过程用于雷达脉冲解交织,采用到达顺序(AO)而非到达时间(TOA);为进一步利用可用信息,文献[15]采用更新过程表示TOA序列,文献[16]在此基础上利用马尔可夫更新过程同时融合PDW与TOA数据。然而,该研究方向存在以下局限性:第一,将字母视为确定性变量,难以适应电磁环境中常见的观测噪声;第二,不输出每个脉冲的标签,在非不交子字母表场景中的适用性受限;第三,依赖启发式优化技术,计算负担较重。
1.3 研究贡献
本文旨在构建具有强表示能力的模型并开发高效的解交织算法。首先,定义交织隐马尔可夫过程以表示混合雷达脉冲序列,并设计相应的生成模型;其次,将解交织问题转化为后验推断问题,设计基于期望最大化(EM)算法的精确推断方法,但发现由于组合特性,精确推断具有NP难特性;为解决该问题,设计了三种近似推断方法:基于马尔可夫链蒙特卡洛(MCMC)的算法和两种基于变分的算法;最后,基于似然比检验推导了解交织二状态隐马尔可夫模型的错误概率理论下界。本文的主要贡献总结如下:
- 提出交织隐马尔可夫过程的生成模型,该模型能够表示观测噪声并适应非不交子字母表场景。
- 提出一种精确推断方法和三种近似推断方法用于计算后验概率,这些方法均经过明确推导,显著提升了解交织效率。
- 推导了二状态隐马尔可夫模型混合解交织的错误概率理论下界,仿真结果表明所提方法能较好地接近该下界。
- 在雷达数据集上的仿真验证了所提方法的有效性,尤其证明了采用结构化近似的变分推断在准确性与计算效率之间实现了良好平衡。
1.4 论文结构
本文其余部分安排如下:第二章介绍脉冲间调制表示初步知识及交织隐马尔可夫过程的生成模型;第三章提出四种解交织方法;第四章分析错误概率;第五章给出在多种雷达数据集上的仿真结果;第六章总结全文。
[1] 当隐马尔可夫过程被激活时,其隐状态根据第二章A节所述的转移概率演化。
[2] 到达顺序(AO)是到达时间(TOA)的简化形式,脉冲按TOA值排序,排序后的索引即为AO。
二、预备知识与生成模型
2.1 雷达脉冲间调制表示初步
雷达通过排列有限数量的脉冲实现特定雷达任务,这些脉冲的动态模式称为脉冲间调制。常用的脉冲间调制类型有六种,包括参差、恒定、抖动、捷变、驻留切换(D&S)和滑动[17,18]。
受测量噪声影响,每个脉冲PDW值的观测函数采用参数模型建模。雷达脉冲序列用具有参数输出的隐马尔可夫模型(即高斯输出隐马尔可夫模型)表示,该模型可表示为三元组:
(π1,A1,φ1)(1)
(\pi^1, A^1, \varphi^1) \tag{1}
(π1,A1,φ1)(1)
式中,上标“1”表示本节描述的单隐马尔可夫模型场景。在式(1)中,π1={πi1}i=1K1\pi^1 = \{\pi_i^1\}_{i=1}^{K^1}π1={πi1}i=1K1为规模为K1×1K^1 \times 1K1×1的初始分布;A1={Aj1}j=1K1A^1 = \{A_j^1\}_{j=1}^{K^1}A1={Aj1}j=1K1为状态转移矩阵,其中Aj1={Aj,i1}i=1K1A_j^1 = \{A_{j,i}^1\}_{i=1}^{K^1}Aj1={Aj,i1}i=1K1;隐状态St1S_t^1St1为规模为K1×1K^1 \times 1K1×1的独热向量。隐状态根据初始分布和转移矩阵演化:
P(S11)=π1,P(St1∣St−11)=St−11⊤A1St1,
\begin{aligned}
P(S_1^1) &= \pi^1, \\
P(S_t^1 \mid S_{t-1}^1) &= S_{t-1}^{1\top} A^1 S_t^1,
\end{aligned}
P(S11)P(St1∣St−11)=π1,=St−11⊤A1St1,
式中,v⊤v^\topv⊤表示向量vvv的转置。时间ttt的观测PDW记为ptp_tpt,由高斯输出隐马尔可夫模型生成。该隐马尔可夫模型定义在字母表φ1={φ11,…,φk1,…,φK11}\varphi^1 = \{\varphi_1^1, \dots, \varphi_k^1, \dots, \varphi_{K^1}^1\}φ1={φ11,…,φk1,…,φK11}上,其中φk1\varphi_k^1φk1为字母表中的第kkk个字母。从生成角度看:在每个时间ttt,隐状态St1S_t^1St1根据式(2)演化并输出索引kkk;随后从随机变量φk1\varphi_k^1φk1中采样得到观测值ptp_tpt,且φk1\varphi_k^1φk1服从高斯概率密度函数fφk1(⋅)f_{\varphi_k^1}(\cdot)fφk1(⋅):
fφk1(pt)∝exp(−12(pt−μk1)⊤(Σk1)−1(pt−μk1))(3)
f_{\varphi_k^1}(p_t) \propto \exp\left(-\frac{1}{2}(p_t - \mu_k^1)^\top (\Sigma_k^1)^{-1} (p_t - \mu_k^1)\right) \tag{3}
fφk1(pt)∝exp(−21(pt−μk1)⊤(Σk1)−1(pt−μk1))(3)
式中,μk1\mu_k^1μk1和Σk1\Sigma_k^1Σk1分别为多元高斯分布的均值和协方差。该生成模型的概率表示如图3所示。
图3 高斯输出隐马尔可夫模型的图表示,由于本节场景中观测仅由一个隐马尔可夫模型生成,因此变量和参数的上标均为1
PDW序列遵循由转移矩阵AAA描述的潜在转移模式。例如,考虑某参差射频调制脉冲序列,其一个周期内的射频值为(3,2,5) MHz(3, 2, 5)\ \text{MHz}(3,2,5) MHz,则字母表定义为φ1={φ11,φ21,φ31}\varphi^1 = \{\varphi_1^1, \varphi_2^1, \varphi_3^1\}φ1={φ11,φ21,φ31},其中φ11=(μ1=2,σ12=1)\varphi_1^1 = (\mu_1 = 2, \sigma_1^2 = 1)φ11=(μ1=2,σ12=1)、φ21=(μ2=3,σ22=1)\varphi_2^1 = (\mu_2 = 3, \sigma_2^2 = 1)φ21=(μ2=3,σ22=1)、φ31=(μ3=5,σ32=1)\varphi_3^1 = (\mu_3 = 5, \sigma_3^2 = 1)φ31=(μ3=5,σ32=1);同时,转移矩阵满足A2,1=1A_{2,1} = 1A2,1=1、A1,3=1A_{1,3} = 1A1,3=1、A3,2=1A_{3,2} = 1A3,2=1,其余元素均为0。图4展示了三种不同类型的脉冲间调制。
图4 三种不同脉冲间调制类型示例:(a)参差调制;(b)驻留切换(D&S)调制;(c)滑动调制。左列展示三种调制类型的转移图,中列展示转移概率,右列展示脉冲间调制的序列示例。不同颜色代表雷达使用的不同PDW值(本文中为射频值)
此外,当检测概率为1时,在某些调制模式(如滑动或参差调制)下,观测脉冲序列可能呈现严格周期性,导致马尔可夫链具有周期性,从而不满足遍历性(遍历性需满足非周期性、不可约性和正常返性)[19]。在电磁环境中,检测概率通常小于1,会导致观测缺失;这些随机缺失会破坏PDW序列的周期性结构,使观测过程具备非周期性。因此,本文假设最终得到的马尔可夫链是遍历的。
2.2 交织隐马尔可夫过程的生成模型
多个雷达的观测序列构成交织隐马尔可夫过程。在实际场景中,准确描述交织机制具有复杂性。本文采用马尔可夫切换过程PswP_{sw}Psw对交织机制建模,并采用一阶马尔可夫链作为该切换过程的生成模型。假设PswP_{sw}Psw的初始相位服从均匀分布,所提模型的图表示如图5所示。
图5 交织隐马尔可夫过程的图模型,包含MMM个分量过程P1,…,PMP_1, \dots, P_MP1,…,PM,每个分量过程的底层生成模型为隐马尔可夫模型。第mmm个分量过程在时间ttt的隐状态记为StmS_t^mStm;由马尔可夫链建模的切换过程PswP_{sw}Psw控制每个时间步的激活分量,其在时间ttt的状态记为ZtZ_tZt
图5中包含MMM个分量过程P1,…,PMP_1, \dots, P_MP1,…,PM,每个分量过程的底层生成模型为隐马尔可夫模型。第mmm个分量过程的隐状态记为StmS_t^mStm,规模为Km×1K^m \times 1Km×1,隐状态根据规模为Km×1K^m \times 1Km×1的初始分布πm\pi^mπm和规模为Km×KmK^m \times K^mKm×Km的转移矩阵AmA^mAm演化。此外,存在一个由一阶马尔可夫链建模的切换过程PswP_{sw}Psw,其在时间ttt的状态记为ZtZ_tZt(规模为M×1M \times 1M×1),并根据规模为M×1M \times 1M×1的初始分布πz\pi^zπz和规模为M×MM \times MM×M的转移矩阵AzA^zAz演化。状态变量StmS_t^mStm和ZtZ_tZt均为独热向量。该生成模型的联合概率表示为:
P(Z,S,p,Az,A,πz,π,A)∝P(Z1∣πz)×∏t=2TP(Zt∣Zt−1,Az)×∏m=1M{P(S1m∣πm)∏t=1TP(pt∣Stm,Zt,m,φm)∏t=2TP(Stm∣St−1m,Zt,m,Am)},(4)
\begin{aligned}
&P(Z, S, p, A^z, A, \pi^z, \pi, \mathcal{A}) \propto \\
&P(Z_1 \mid \pi^z) \times \prod_{t=2}^T P(Z_t \mid Z_{t-1}, A^z) \times \prod_{m=1}^M \left\{ P(S_1^m \mid \pi^m) \right. \\
&\left. \prod_{t=1}^T P(p_t \mid S_t^m, Z_{t,m}, \varphi^m) \prod_{t=2}^T P(S_t^m \mid S_{t-1}^m, Z_{t,m}, A^m) \right\},
\end{aligned} \tag{4}
P(Z,S,p,Az,A,πz,π,A)∝P(Z1∣πz)×t=2∏TP(Zt∣Zt−1,Az)×m=1∏M{P(S1m∣πm)t=1∏TP(pt∣Stm,Zt,m,φm)t=2∏TP(Stm∣St−1m,Zt,m,Am)},(4)
式中,A={Am}m=1MA = \{A^m\}_{m=1}^MA={Am}m=1M、Z={Zt}t=1TZ = \{Z_t\}_{t=1}^TZ={Zt}t=1T、p={pt}t=1Tp = \{p_t\}_{t=1}^Tp={pt}t=1T、π={πm}m=1M\pi = \{\pi^m\}_{m=1}^Mπ={πm}m=1M,Zt,mZ_{t,m}Zt,m表示状态变量ZtZ_tZt的第mmm个元素。具体而言,式(4)右侧第一、二项分别对应切换过程的初始概率和状态转移概率,满足以下马尔可夫性:
P(Z1)=πz,P(Zt∣Zt−1)=Zt−1⊤AzZt.(5)
\begin{aligned}
P(Z_1) &= \pi^z, \\
P(Z_t \mid Z_{t-1}) &= Z_{t-1}^\top A^z Z_t.
\end{aligned} \tag{5}
P(Z1)P(Zt∣Zt−1)=πz,=Zt−1⊤AzZt.(5)
式(4)右侧第三项对应分量过程的概率,因此有:
P(S1m)=πm,(6)
P(S_1^m) = \pi^m, \tag{6}
P(S1m)=πm,(6)
P(Stm∣St−1m,Zt)=St−1m⊤(Zt,mAm+Z‾t,mIm)Stm,P(pt∣Stm,Zt,φm)∝exp(−12(pt−μt)⊤(Σt)−1(pt−μt)),(7)
\begin{gathered}
P(S_t^m \mid S_{t-1}^m, Z_t) = S_{t-1}^{m\top} \left( Z_{t,m} A^m + \overline{Z}_{t,m} I^m \right) S_t^m, \\
P(p_t \mid S_t^m, Z_t, \varphi^m) \propto \\
\exp\left( -\frac{1}{2}(p_t - \mu_t)^\top (\Sigma_t)^{-1} (p_t - \mu_t) \right),
\end{gathered} \tag{7}
P(Stm∣St−1m,Zt)=St−1m⊤(Zt,mAm+Zt,mIm)Stm,P(pt∣Stm,Zt,φm)∝exp(−21(pt−μt)⊤(Σt)−1(pt−μt)),(7)
式中,Z‾t,m=1−Zt,m\overline{Z}_{t,m} = 1 - Z_{t,m}Zt,m=1−Zt,m,ImI^mIm为规模为Km×KmK^m \times K^mKm×Km的单位矩阵,μt\mu_tμt和Σt\Sigma_tΣt分别为第ttt个观测字母φt\varphi_tφt的均值和协方差矩阵。字母φt\varphi_tφt定义为:
φt=∑m=1MZt,m∑k=1KSt,kmφkm.(8)
\varphi_t = \sum_{m=1}^M Z_{t,m} \sum_{k=1}^K S_{t,k}^m \varphi_k^m. \tag{8}
φt=m=1∑MZt,mk=1∑KSt,kmφkm.(8)
由式(5)和(6)可知,切换过程选择一个对应于某一分量过程的索引;当分量过程被激活时,其隐状态StmS_t^mStm根据状态转移矩阵AmA^mAm演化,否则隐状态保持不变(状态保持等效于根据单位矩阵ImI^mIm进行状态转移)。
2.3 解交织问题表述
基于交织隐马尔可夫过程的生成模型,根据贝叶斯定理,解交织问题可转化为后验推断问题:
P(Z,S,Γ∣p)=P(Z,S,Γ)P(p∣Z,S,Γ)∫P(p,Z,S,Γ)d(Z,S,Γ),(9)
P(Z, S, \Gamma \mid p) = \frac{P(Z, S, \Gamma) P(p \mid Z, S, \Gamma)}{\int P(p, Z, S, \Gamma) d(Z, S, \Gamma)}, \tag{9}
P(Z,S,Γ∣p)=∫P(p,Z,S,Γ)d(Z,S,Γ)P(Z,S,Γ)P(p∣Z,S,Γ),(9)
式中,模型参数Γ={A,Az,π,πz}\Gamma = \{A, A^z, \pi, \pi^z\}Γ={A,Az,π,πz},P(Z,S,Γ)P(Z, S, \Gamma)P(Z,S,Γ)为先验分布。解交织结果由Z∗Z^*Z∗体现,通过最大化后验概率得到:
Z∗=argmaxZ,S,ΓP(Z,S,Γ∣p).(10)
Z^* = \arg\max_{Z, S, \Gamma} P(Z, S, \Gamma \mid p). \tag{10}
Z∗=argZ,S,ΓmaxP(Z,S,Γ∣p).(10)
三、方法
在概率模型中,状态推断和参数学习是两个核心问题。状态推断旨在计算给定观测下隐状态的概率,参数学习则聚焦于根据观测估计模型参数。本文提出基于期望最大化(EM)的方法求解后验概率,这类EM类算法通过迭代执行以下两步:模型参数Γ\GammaΓ估计(M步)和隐状态分配Z,SZ, SZ,S推断(E步)。
标准EM算法的目标是最大化隐变量与观测变量的期望联合对数似然[1],该似然函数定义为:
Q(Γ′∣Γ)=E(logP(S,Z,p∣Γ′)∣Γ,p),(11)
\mathbb{Q}(\Gamma' \mid \Gamma) = \mathbb{E}\left( \log P(S, Z, p \mid \Gamma') \mid \Gamma, p \right), \tag{11}
Q(Γ′∣Γ)=E(logP(S,Z,p∣Γ′)∣Γ,p),(11)
式中,E(⋅)\mathbb{E}(\cdot)E(⋅)表示求期望,Γ′\Gamma'Γ′为当前迭代中估计的新参数。E步计算式(11)定义的Q\mathbb{Q}Q函数,M步通过更新参数Γ\GammaΓ最大化Q\mathbb{Q}Q函数。根据Jensen不等式,文献[20]已证明,经过每一轮E步和M步迭代,似然函数值会单调递增,直至收敛到局部最优。M步通过对Q\mathbb{Q}Q函数(式11)关于参数求导并令导数为零实现;初始分布π\piπ和转移矩阵AAA的M步更新采用经验估计器推导。关于Q\mathbb{Q}Q函数的详细描述及参数更新函数的推导过程见附录A。
以下小节将介绍四种用于执行E步的方法,并讨论它们各自的优缺点。为简化表示与说明,假设每个字母的协方差矩阵相同,即对所有i∈[1,Km]i \in [1, K^m]i∈[1,Km]和m∈[1,M]m \in [1, M]m∈[1,M],有Σim=Σ\Sigma_i^m = \SigmaΣim=Σ。
3.1 精确推断
精确推断方法的设计受文献[21]启发,但文献[21]假设切换过程无记忆性,因此表示能力有限。为实现交织隐马尔可夫过程生成模型的精确推断,本文将图5所示的图模型转化为等效的“大隐马尔可夫模型”。该等效隐马尔可夫模型的隐状态数量为M∏m=1MKmM \prod_{m=1}^M K^mM∏m=1MKm,因此可采用标准的前向-后向算法[20]。转化规则基于MMM个分量过程隐状态的所有可能组合。例如,若存在两个分量过程,每个过程均用二状态隐马尔可夫模型建模,则每个时间步存在8种可能的隐状态组合,因此等效隐马尔可夫模型将包含8个隐状态,其隐状态空间为:
(argmaxZt,argmaxSt1,argmaxSt2)∈{(1,1,1),(1,1,2),(1,2,1),(1,2,2),(2,1,1),(2,1,2),(2,2,1),(2,2,2)}.
\begin{aligned}
&(\arg\max Z_t, \arg\max S_t^1, \arg\max S_t^2) \in \\
&\{(1,1,1), (1,1,2), (1,2,1), (1,2,2), \\
&(2,1,1), (2,1,2), (2,2,1), (2,2,2)\}.
\end{aligned}
(argmaxZt,argmaxSt1,argmaxSt2)∈{(1,1,1),(1,1,2),(1,2,1),(1,2,2),(2,1,1),(2,1,2),(2,2,1),(2,2,2)}.
针对该等效隐马尔可夫模型的前向-后向算法,空间复杂度为O(TM∏m=1MKm)O\left( T M \prod_{m=1}^M K^m \right)O(TM∏m=1MKm),时间复杂度为O(TM2∏m=1M(Km)2)O\left( T M^2 \prod_{m=1}^M (K^m)^2 \right)O(TM2∏m=1M(Km)2)。由于时间复杂度中包含KmK^mKm的乘积项,导致其呈现指数复杂度,使得精确推断在计算上不可解。尽管前向-后向算法能高效计算似然,但无法避免每个时间步分量过程隐状态所有可能组合的乘积运算。后文将该精确推断方法简称为“EM方法”。
为避免隐状态数量呈指数级增长,概率图模型中的近似推断受到广泛关注[22]。以下小节将介绍基于马尔可夫链蒙特卡洛(MCMC)和基于变分的近似推断算法。
3.2 马尔可夫链蒙特卡洛推断
马尔可夫链蒙特卡洛算法可解决计算不可解模型的推断问题[23]。现有多种采样方法,本文选择采用带祖先采样的粒子吉布斯(PGAS)方法[24],该方法属于粒子马尔可夫链蒙特卡洛(PMCMC)方法家族[25]。
在PGAS方法中,通过运行序贯蒙特卡洛(SMC)采样器构建马尔可夫核,其中一个粒子被设为确定性参考输入粒子rtr_trt,该参考粒子对应前一次迭代的输出。新的参考轨迹从粒子轨迹中根据其重要性权重采样得到。具体而言,每个时间步设置NNN个粒子,代表所提生成模型的隐状态;每个粒子用规模为(M+1)×1(M+1) \times 1(M+1)×1的向量表示,每个元素对应M+1M+1M+1个马尔可夫链的隐状态索引;第iii个粒子记为xt(i)x_t(i)xt(i),第NNN个粒子被确定性地设为参考粒子rtr_trt。同时,PGAS算法利用祖先索引at(i)∈{1,…,N}a_t(i) \in \{1, \dots, N\}at(i)∈{1,…,N}实现粒子传播,粒子轨迹可递归定义为x1:t(i)=concat(x1:t−1(at(i)),xt(i))x_{1:t}(i) = \text{concat}(x_{1:t-1}(a_t(i)), x_t(i))x1:t(i)=concat(x1:t−1(at(i)),xt(i))(t>1t>1t>1),其中concat\text{concat}concat表示拼接操作。
采样过程描述如下:在每个时间步ttt,前N−1N-1N−1个粒子的祖先索引从分类分布中采样,即at(i)∼Categorical(wt−1(1),…,wt−1(i),…,wt−1(N))a_t(i) \sim \text{Categorical}(w_{t-1}(1), \dots, w_{t-1}(i), \dots, w_{t-1}(N))at(i)∼Categorical(wt−1(1),…,wt−1(i),…,wt−1(N)),其中重要性权重wt(i)w_{t}(i)wt(i)定义为:
wt(i)=P(pt∣xt(i)),(12)
w_t(i) = P(p_t \mid x_t(i)), \tag{12}
wt(i)=P(pt∣xt(i)),(12)
式中,P(pt∣xt(i))P(p_t \mid x_t(i))P(pt∣xt(i))为给定隐状态下ptp_tpt的条件概率。根据采样得到的祖先索引,粒子按照转移规则P(xt∣xt−1)P(x_t \mid x_{t-1})P(xt∣xt−1)传播。同时,第NNN个粒子设为参考粒子,其祖先索引at(N)a_t(N)at(N)从分类分布at(N)∼Categorical(w~t∣T(1),…,w~t∣T(i),…,w~t∣T(N))a_t(N) \sim \text{Categorical}(\tilde{w}_{t|T}(1), \dots, \tilde{w}_{t|T}(i), \dots, \tilde{w}_{t|T}(N))at(N)∼Categorical(w~t∣T(1),…,w~t∣T(i),…,w~t∣T(N))中采样,其中:
w~t∣T(i)∝wt−1(i)P(xt(N)∣xt−1(i)),(13)
\tilde{w}_{t|T}(i) \propto w_{t-1}(i) P(x_t(N) \mid x_{t-1}(i)), \tag{13}
w~t∣T(i)∝wt−1(i)P(xt(N)∣xt−1(i)),(13)
式中,P(xt(N)∣xt−1(i))P(x_t(N) \mid x_{t-1}(i))P(xt(N)∣xt−1(i))为转移概率的乘积。算法1总结了PGAS方法的流程。
算法1 带祖先采样的粒子吉布斯(PGAS)
输入:时间t=1,…,Tt=1,\dots,Tt=1,…,T的参考轨迹rtr_trt,以及参数Γ\GammaΓ
输出:采样轨迹routr_{out}rout
- 根据式(6)采样x1(i)x_1(i)x1(i)(i=1,…,Ni=1,\dots,Ni=1,…,N)
- 设置x1(N)=r1x_1(N) = r_1x1(N)=r1
- 根据式(12)计算w1(i)w_1(i)w1(i)(i=1,…,Ni=1,\dots,Ni=1,…,N)
- 对于t=2,…,Tt=2,\dots,Tt=2,…,T:
- 采样at(i)∼Categorical(wt−1(1),…,wt−1(N))a_t(i) \sim \text{Categorical}(w_{t-1}(1), \dots, w_{t-1}(N))at(i)∼Categorical(wt−1(1),…,wt−1(N))(i=1,…,N−1i=1,\dots,N-1i=1,…,N−1)
- 根据式(13)计算w~t−1∣T(i)\tilde{w}_{t-1|T}(i)w~t−1∣T(i)(i=1,…,Ni=1,\dots,Ni=1,…,N)
- 采样at(N)∼Categorical(w~t−1∣T(1),…,w~t−1∣T(N))a_t(N) \sim \text{Categorical}(\tilde{w}_{t-1|T}(1), \dots, \tilde{w}_{t-1|T}(N))at(N)∼Categorical(w~t−1∣T(1),…,w~t−1∣T(N))
- 根据式(6)采样xt(i)x_t(i)xt(i)(i=1,…,N−1i=1,\dots,N-1i=1,…,N−1)
- 设置xt(N)=rtx_t(N) = r_txt(N)=rt
- 对i=1,…,Ni=1,\dots,Ni=1,…,N,设置x1:t(i)=concat(x1:t−1(at(i)),xt(i))x_{1:t}(i) = \text{concat}(x_{1:t-1}(a_t(i)), x_t(i))x1:t(i)=concat(x1:t−1(at(i)),xt(i))
- 根据式(12)计算wt(i)w_t(i)wt(i)(i=1,…,Ni=1,\dots,Ni=1,…,N)
- 结束循环
- 采样k∼Categorical(wT(1),…,wT(N))k \sim \text{Categorical}(w_T(1), \dots, w_T(N))k∼Categorical(wT(1),…,wT(N))
- 返回rout=xk,1:Tr_{out} = x_{k,1:T}rout=xk,1:T
PGAS算法单次迭代的时间复杂度为O(NTM)O(N T M)O(NTM),空间复杂度为O((M+2)NT)O((M+2) N T)O((M+2)NT)。然而,基于马尔可夫链蒙特卡洛的方法耗时较长,因为只有当马尔可夫链经过预热期[26]后,采样过程才有效,即需经过一定迭代后,采样轨迹才能作为近似推断结果。此外,还需计算每个粒子的权重,进一步增加了计算负担。因此,基于马尔可夫链蒙特卡洛的方法不适用于电子侦察场景。
3.3 变分推断
变分方法可解决计算不可解模型的推断问题,并为后验计算提供高效方案。变分推断的核心思想是引入变分分布QQQ,最小化真实后验分布PPP与变分分布QQQ之间的距离。根据文献[27],观测序列的对数似然函数可表示为:
$$
\log P(p \mid Z, S, \Gamma) =
\mathcal{L}(Q(Z, S, \Gamma)) + \text{KL}(Q(Z, S, \Gamma) \parallel P(Z, S, \Gamma \mid p)), \tag{14}
KaTeX parse error: Can't use function '$' in math mode at position 5:
式中,$̲\mathcal{L}$表示证…
\mathcal{L} = \mathbb{E}_Q\left{ \log P(\Gamma, S, Z, p) \right} - \mathbb{E}_Q\left{ \log Q(S, Z, \Gamma) \right}, \tag{15}
$$
式中,EQ\mathbb{E}_QEQ表示关于变分分布QQQ的期望。根据Blei[28]的研究,变分推断的复杂度由条件独立关系决定。因此,需构建可计算的变分结构,通过最大化证据下界(式15)优化变分参数,以获得最紧的下界。本节将明确推导两种基于不同变量耦合程度的变分推断方法:基于平均场假设的变分推断和基于结构化假设的变分推断,两种近似的图表示如图6所示。
图6 当M=2M=2M=2时,平均场近似与结构化近似的图表示:(a)平均场近似;(b)结构化近似
3.3.1 平均场变分推断(MFVI)
一种简单的选择是假设所有隐变量相互独立,如图6(a)所示。此时变分分布定义为:
Q(S,Z,Γ)=Q(Γ)∏t=1T∏m=1MQ(Stm∣θtm)∏t=1TQ(Zt∣ϕt),(16)
Q(S, Z, \Gamma) = Q(\Gamma) \prod_{t=1}^T \prod_{m=1}^M Q(S_t^m \mid \theta_t^m) \prod_{t=1}^T Q(Z_t \mid \phi_t), \tag{16}
Q(S,Z,Γ)=Q(Γ)t=1∏Tm=1∏MQ(Stm∣θtm)t=1∏TQ(Zt∣ϕt),(16)
式中,θtm\theta_t^mθtm和ϕt\phi_tϕt分别为隐状态StmS_t^mStm和ZtZ_tZt的期望。基于上述符号,可明确表示变分分布为:
Q(Stm∣θtm)=∏k=1Km(θt,km)St,km,Q(Zt∣ϕt)=∏m=1M(ϕt,m)Zt,m.(17)
Q(S_t^m \mid \theta_t^m) = \prod_{k=1}^{K^m} (\theta_{t,k}^m)^{S_{t,k}^m}, \quad Q(Z_t \mid \phi_t) = \prod_{m=1}^M (\phi_{t,m})^{Z_{t,m}}. \tag{17}
Q(Stm∣θtm)=k=1∏Km(θt,km)St,km,Q(Zt∣ϕt)=m=1∏M(ϕt,m)Zt,m.(17)
为简化计算,设Q(Γ)=1Q(\Gamma) = 1Q(Γ)=1。令A‾tm=Z‾t,mlogIm+Zt,mlogAm\overline{A}_t^m = \overline{Z}_{t,m} \log I^m + Z_{t,m} \log A^mAtm=Zt,mlogIm+Zt,mlogAm,则隐状态的更新函数如式(18)和(19)所示。式中,Δmn=μmΣ−1μn⊤\Delta_m^n = \mu^m \Sigma^{-1} \mu^{n\top}Δmn=μmΣ−1μn⊤;idiag(⋅)\text{idiag}(\cdot)idiag(⋅)表示对输入方阵取对角线元素构成向量的算子;diag(⋅)\text{diag}(\cdot)diag(⋅)表示将输入向量作为对角线元素构成方阵的算子;tr(⋅)\text{tr}(\cdot)tr(⋅)表示返回输入矩阵迹的算子。证据下界的表达式及式(18)、(19)的推导过程见附录B。
尽管采用平均场假设近似隐变量的后验分布,但仍保留了时间序列依赖性,式(18)和(19)的最后两项体现了这种时间依赖性。每个隐状态向量根据式(18)和(19)更新,单次迭代的时间复杂度为O(T∑m=1M(Km)2+TM2)O\left( T \sum_{m=1}^M (K^m)^2 + T M^2 \right)O(T∑m=1M(Km)2+TM2),空间复杂度为O(T∑m=1MKm+MT)O\left( T \sum_{m=1}^M K^m + M T \right)O(T∑m=1MKm+MT)。
3.3.2 结构化变分推断(SVI)
平均场变分推断假设所有状态变量统计独立,这一假设过于严格。另一种思路是在保证计算可解性的同时保留模型结构。为此,本文保留横向耦合(如图6(b)所示),可采用前向-后向算法计算数据似然。相应的变分分布定义为:
Q(S,Z,Γ)=Q(Γ)∏m=1M{Q(S1m)∏t=2TQ(Stm∣St−1m)}×Q(Z1)∏t=2TQ(Zt∣Zt−1).(20)
\begin{aligned}
Q(S, Z, \Gamma) &= Q(\Gamma) \prod_{m=1}^M \left\{ Q(S_1^m) \prod_{t=2}^T Q(S_t^m \mid S_{t-1}^m) \right\} \\
&\quad \times Q(Z_1) \prod_{t=2}^T Q(Z_t \mid Z_{t-1}).
\end{aligned} \tag{20}
Q(S,Z,Γ)=Q(Γ)m=1∏M{Q(S1m)t=2∏TQ(Stm∣St−1m)}×Q(Z1)t=2∏TQ(Zt∣Zt−1).(20)
与前文一致,设Q(Γ)=1Q(\Gamma) = 1Q(Γ)=1。初始分布和转移分布可表示为:
Q(S1m)=∏k=1Km(h1,kmπkm)S1,km;Q(Z1)=∏k=1M(g1,kπ1,kz)Z1,k,Q(Stm∣St−1m)=∏j=1Km(∏i=1Km(ht,imAj,im)St,im)St−1,jm,Q(Zt∣Zt−1)=∏j=1M(∏i=1M(gt,iAj,iz)Zt,i)Zt−1,j,(21)
\begin{aligned}
&Q(S_1^m) = \prod_{k=1}^{K^m} (h_{1,k}^m \pi_k^m)^{S_{1,k}^m}; \quad Q(Z_1) = \prod_{k=1}^M (g_{1,k} \pi_{1,k}^z)^{Z_{1,k}}, \\
&Q(S_t^m \mid S_{t-1}^m) = \prod_{j=1}^{K^m} \left( \prod_{i=1}^{K^m} (h_{t,i}^m A_{j,i}^m)^{S_{t,i}^m} \right)^{S_{t-1,j}^m}, \\
&Q(Z_t \mid Z_{t-1}) = \prod_{j=1}^M \left( \prod_{i=1}^M (g_{t,i} A_{j,i}^z)^{Z_{t,i}} \right)^{Z_{t-1,j}},
\end{aligned} \tag{21}
Q(S1m)=k=1∏Km(h1,kmπkm)S1,km;Q(Z1)=k=1∏M(g1,kπ1,kz)Z1,k,Q(Stm∣St−1m)=j=1∏Km(i=1∏Km(ht,imAj,im)St,im)St−1,jm,Q(Zt∣Zt−1)=j=1∏M(i=1∏M(gt,iAj,iz)Zt,i)Zt−1,j,(21)
式中,htm=[ht,1m,…,ht,Kmm]⊤h_t^m = [h_{t,1}^m, \dots, h_{t,K^m}^m]^\tophtm=[ht,1m,…,ht,Kmm]⊤为规模Km×1K^m \times 1Km×1的向量,gt=[gt,1,…,gt,M]⊤g_t = [g_{t,1}, \dots, g_{t,M}]^\topgt=[gt,1,…,gt,M]⊤为规模M×1M \times 1M×1的向量,均表示观测概率。与平均场变分推断类似,定义θtm\theta_t^mθtm和ϕt\phi_tϕt分别为隐状态StmS_t^mStm和ZtZ_tZt的期望;观测概率htmh_t^mhtm和gtg_tgt可通过对θtm\theta_t^mθtm和ϕt\phi_tϕt应用前向-后向算法得到。基于上述表述,通过调整htmh_t^mhtm和gtg_tgt可最大化证据下界,其更新函数如式(22)和(23)所示(推导过程见附录C)。直观上,结构化变分推断将M+1M+1M+1个马尔可夫链解耦,为每个状态变量分配独立的观测。结构化变分推断单次迭代的时间复杂度为O(T∑m=1M(Km)2+TM2)O\left( T \sum_{m=1}^M (K^m)^2 + T M^2 \right)O(T∑m=1M(Km)2+TM2),空间复杂度为O(∑m=1MKmT+MT)O\left( \sum_{m=1}^M K^m T + M T \right)O(∑m=1MKmT+MT)。
θtm=exp{μmΣ−1pt⊤ϕt,m−12∑n=1n≠mMΔmn(ϕt,nθtn)ϕt,m−12idiag{Δmmϕt,m}+EQ(A‾tm)θt−1m+EQ(A‾tm)⊤θt+1m},(18) \theta_t^m = \exp\left\{ \mu^m \Sigma^{-1} p_t^\top \phi_{t,m} - \frac{1}{2} \sum_{\substack{n=1 \\ n \neq m}}^M \Delta_m^n (\phi_{t,n} \theta_t^n) \phi_{t,m} - \frac{1}{2} \text{idiag}\{\Delta_m^m \phi_{t,m}\} + \mathbb{E}_Q(\overline{A}_t^m) \theta_{t-1}^m + \mathbb{E}_Q(\overline{A}_t^m)^\top \theta_{t+1}^m \right\}, \tag{18} θtm=exp⎩⎨⎧μmΣ−1pt⊤ϕt,m−21n=1n=m∑MΔmn(ϕt,nθtn)ϕt,m−21idiag{Δmmϕt,m}+EQ(Atm)θt−1m+EQ(Atm)⊤θt+1m⎭⎬⎫,(18)
ϕt,m=exp{ptΣ−1μm⊤θtm−12tr(Δmmdiag(θtm))−12tr{Δmnϕt,nθtnθtm⊤}+2logAm,mz+∑n=1n≠mMϕt,nlogAm,nz}.(19) \phi_{t,m} = \exp\left\{ p_t \Sigma^{-1} \mu^{m\top} \theta_t^m - \frac{1}{2} \text{tr}\left( \Delta_m^m \text{diag}(\theta_t^m) \right) - \frac{1}{2} \text{tr}\left\{ \Delta_m^n \phi_{t,n} \theta_t^n \theta_t^{m\top} \right\} + 2 \log A_{m,m}^z + \sum_{\substack{n=1 \\ n \neq m}}^M \phi_{t,n} \log A_{m,n}^z \right\}. \tag{19} ϕt,m=exp⎩⎨⎧ptΣ−1μm⊤θtm−21tr(Δmmdiag(θtm))−21tr{Δmnϕt,nθtnθtm⊤}+2logAm,mz+n=1n=m∑Mϕt,nlogAm,nz⎭⎬⎫.(19)
$$
h_t^m = \exp\left{ \mu^m \Sigma^{-1} p_t^\top \phi_{t,m} - \frac{1}{2} \text{diag}{\Delta_m^m \phi_{t,m}} + (1 - \phi_{t,m}) \left[ (\log I^m - \log A^m) \theta_{t-1}^m + (\log I^m - \log Am)\top \theta_{t+1}^m \right] \right. \
\left. - \frac{1}{2} \sum_{\substack{n=1 \ n \neq m}}^M \Delta_m^n (\phi_{t,n} \theta_t^n) \phi_{t,m} \right}, \tag{22}
$$
gt,m=exp{ptΣ−1μm⊤θtm−12tr{Δmmdiag(θtm)}−12∑n=1n≠mMtr{Δmnϕt,nθtnθtm⊤}−θtm⊤(logIm−logAm)θt−1m}.(23) g_{t,m} = \exp\left\{ p_t \Sigma^{-1} \mu^{m\top} \theta_t^m - \frac{1}{2} \text{tr}\left\{ \Delta_m^m \text{diag}(\theta_t^m) \right\} - \frac{1}{2} \sum_{\substack{n=1 \\ n \neq m}}^M \text{tr}\left\{ \Delta_m^n \phi_{t,n} \theta_t^n \theta_t^{m\top} \right\} - \theta_t^{m\top} (\log I^m - \log A^m) \theta_{t-1}^m \right\}. \tag{23} gt,m=exp⎩⎨⎧ptΣ−1μm⊤θtm−21tr{Δmmdiag(θtm)}−21n=1n=m∑Mtr{Δmnϕt,nθtnθtm⊤}−θtm⊤(logIm−logAm)θt−1m⎭⎬⎫.(23)
四、错误分析
本节基于最大似然准则,推导二状态隐马尔可夫模型混合解交织的错误概率下界。该下界用于评估所提算法的性能,且可推广到多隐马尔可夫模型混合场景及非二状态场景。为推导错误概率下界,首先引入以下两个假设:
假设1:每个马尔可夫链均为遍历链,在两个状态上具有唯一平稳分布,平稳分布为Ξm=[ξ1m,ξ2m]\Xi^m = [\xi_1^m, \xi_2^m]Ξm=[ξ1m,ξ2m](m∈[1,2]m \in [1,2]m∈[1,2])和Ξz=[ξ1z,ξ2z]\Xi^z = [\xi_1^z, \xi_2^z]Ξz=[ξ1z,ξ2z];子字母表互不相交;每个马尔可夫链的初始状态从平稳分布中采样。
假设2:每个隐马尔可夫模型定义在某一字母表上,字母表中的每个字母为一元高斯随机变量,服从N(μkm,σkm)\mathcal{N}(\mu_k^m, \sigma_k^m)N(μkm,σkm)分布;且每个字母的标准差(SD)相同,即对m∈{1,2}m \in \{1,2\}m∈{1,2}和k∈{1,2}k \in \{1,2\}k∈{1,2},有σkm=σ\sigma_k^m = \sigmaσkm=σ。
在遍历的参数输出隐马尔可夫模型中,平稳输出为该参数分布族的混合分布[29]。因此,每个遍历隐马尔可夫模型等效于高斯混合模型:
ptm∼∑k=12ξkmN(ptm;μkm,σ),
p_t^m \sim \sum_{k=1}^2 \xi_k^m \mathcal{N}(p_t^m; \mu_k^m, \sigma),
ptm∼k=1∑2ξkmN(ptm;μkm,σ),
式中,ptmp_t^mptm为第mmm个隐马尔可夫模型在时间ttt的输出。
4.1 理论错误下界
一般而言,两个二状态隐马尔可夫模型生成的观测可能以多种方式混淆。由于本文旨在推导下界,因此聚焦于某一类特定的错误事件。考虑错误事件Eixy\mathcal{E}_i^{xy}Eixy:第iii个观测pip_ipi由第yyy个隐马尔可夫模型生成,但被错误地识别为第xxx个隐马尔可夫模型的输出,且前一个观测由第xxx个隐马尔可夫模型正确生成并正确识别。由于推导的是下界,因此忽略所有其他潜在错误事件。错误概率可表示为:
Pe≥limn→∞E[1n∑i=1n∑x=12∑y=12ξxzAx,yzI(Eixy)]=∑x=12∑y=12ξxzAx,yzP(Eixy),
\begin{aligned}
P_e &\geq \lim_{n \to \infty} \mathbb{E}\left[ \frac{1}{n} \sum_{i=1}^n \sum_{x=1}^2 \sum_{y=1}^2 \xi_x^z A_{x,y}^z \mathbb{I}(\mathcal{E}_i^{xy}) \right] \\
&= \sum_{x=1}^2 \sum_{y=1}^2 \xi_x^z A_{x,y}^z P(\mathcal{E}_i^{xy}),
\end{aligned}
Pe≥n→∞limE[n1i=1∑nx=1∑2y=1∑2ξxzAx,yzI(Eixy)]=x=1∑2y=1∑2ξxzAx,yzP(Eixy),
式中,I(⋅)\mathbb{I}(\cdot)I(⋅)为指示函数,Ax,yzA_{x,y}^zAx,yz表示转移矩阵AzA^zAz第xxx行第yyy列的元素。
定理1:假设有两个二状态隐马尔可夫模型,满足μ1i<μ2i\mu_1^i < \mu_2^iμ1i<μ2i、σ1i=σ2i=σ\sigma_1^i = \sigma_2^i = \sigmaσ1i=σ2i=σ,则错误概率满足:
Pe≥∑x=12∑y=12{ξxzAx,yz×∑k=12∑l=12ξkyξl\yQ((−1)u(μky−μl\y)(γklxy−μl\y)σ)},(26)
\begin{aligned}
P_e \geq &\sum_{x=1}^2 \sum_{y=1}^2 \left\{ \xi_x^z A_{x,y}^z \times \right. \\
&\left. \sum_{k=1}^2 \sum_{l=1}^2 \xi_k^y \xi_l^{\backslash y} \mathcal{Q}\left( \frac{(-1)^{u(\mu_k^y - \mu_l^{\backslash y})} (\gamma_{kl}^{xy} - \mu_l^{\backslash y})}{\sigma} \right) \right\},
\end{aligned} \tag{26}
Pe≥x=1∑2y=1∑2{ξxzAx,yz×k=1∑2l=1∑2ξkyξl\yQ(σ(−1)u(μky−μl\y)(γklxy−μl\y))},(26)
式中,Q(⋅)\mathcal{Q}(\cdot)Q(⋅)为标准高斯分布的右尾(生存)函数,u(⋅)u(\cdot)u(⋅)为单位阶跃函数,γklxy\gamma_{kl}^{xy}γklxy定义为:
γklxy=(μky)2−(μl\y)22(μky−μl\y)+2σ2logξkyAx,yzξk\yAx,yz+Ξy⊤logA⋅,ky−Ξ\y⊤logA⋅,l\y2(μkyξky−μl\yξl\y),(27)
\gamma_{kl}^{xy} = \frac{(\mu_k^y)^2 - (\mu_l^{\backslash y})^2}{2(\mu_k^y - \mu_l^{\backslash y})} + 2 \sigma^2 \frac{\log \frac{\xi_k^y A_{x,y}^z}{\xi_k^{\backslash y} A_{x,y}^z} + \Xi^{y\top} \log A_{\cdot,k}^y - \Xi^{\backslash y\top} \log A_{\cdot,l}^{\backslash y}}{2(\mu_k^y \xi_k^y - \mu_l^{\backslash y} \xi_l^{\backslash y})}, \tag{27}
γklxy=2(μky−μl\y)(μky)2−(μl\y)2+2σ22(μkyξky−μl\yξl\y)logξk\yAx,yzξkyAx,yz+Ξy⊤logA⋅,ky−Ξ\y⊤logA⋅,l\y,(27)
其中,\y=2\backslash y = 2\y=2(若y=1y=1y=1),\y=1\backslash y = 1\y=1(若y=2y=2y=2),A⋅,lmA_{\cdot,l}^mA⋅,lm表示转移矩阵AmA^mAm的第lll列。
证明:证明过程见附录D。
4.2 性能对比
本节对比四种所提算法的错误概率与定理1定义的下界。具体而言,考虑两个隐马尔可夫模型,其转移矩阵均为A1=A2=[0.10.90.90.1]A^1 = A^2 = \begin{bmatrix} 0.1 & 0.9 \\ 0.9 & 0.1 \end{bmatrix}A1=A2=[0.10.90.90.1];每个字母φim\varphi_i^mφim的发射函数服从N(μim,σ2)\mathcal{N}(\mu_i^m, \sigma^2)N(μim,σ2)分布。设置三种不同场景,分别采用不同的均值μim\mu_i^mμim:[μ11,μ21,μ12,μ22]∈{[1,2,3,4],[1,3,2,4],[1,3,4,2]}[\mu_1^1, \mu_2^1, \mu_1^2, \mu_2^2] \in \{[1,2,3,4], [1,3,2,4], [1,3,4,2]\}[μ11,μ21,μ12,μ22]∈{[1,2,3,4],[1,3,2,4],[1,3,4,2]}[3];切换过程PswP_{sw}Psw的转移矩阵设为Az=[0.10.90.90.1]A^z = \begin{bmatrix} 0.1 & 0.9 \\ 0.9 & 0.1 \end{bmatrix}Az=[0.10.90.90.1];取前T=900T=900T=900个交织数据作为混合隐马尔可夫模型的观测数据。解交织错误概率定义为:
Pe=∑i=1TI(d^i≠di)T,(28)
P_e = \frac{\sum_{i=1}^T \mathbb{I}(\hat{d}_i \neq d_i)}{T}, \tag{28}
Pe=T∑i=1TI(d^i=di),(28)
式中,d^i\hat{d}_id^i为第iii个观测的估计索引,did_idi为第iii个观测的真实索引。将每个字母的标准差从0调整至0.5(步长0.1),计算100次实验的平均错误概率,并与下界对比,仿真结果如图7所示。
图7 三种场景下的错误概率,结果与理论下界(式26,红色线)对比:场景1、场景2、场景3分别对应[μ11,μ21,μ12,μ22]∈{[1,2,3,4],[1,3,2,4],[1,3,4,2]}[\mu_1^1, \mu_2^1, \mu_1^2, \mu_2^2] \in \{[1,2,3,4], [1,3,2,4], [1,3,4,2]\}[μ11,μ21,μ12,μ22]∈{[1,2,3,4],[1,3,2,4],[1,3,4,2]}
如图7所示,四种所提算法均表现出有效的性能。需注意的是,随着标准差趋近于0,PGAS算法的错误概率可能无法趋近于0,且其曲线呈现非单调趋势。PGAS性能较差的主要原因是,基于采样的方法得到的后验轨迹会将不确定性引入采样轨迹中。相比之下,精确EM方法和两种变分方法的错误概率均随标准差减小而趋近于0。从以下两个角度分析这一现象:
首先,分析精确方法与变分方法的关系。随着标准差趋近于0,精确方法与变分方法的性能逐渐等效,这一特性在文献[30]中被称为“渐近有效性”。该特性表明,尽管变分证据下界与对数似然函数之间可能存在差距,但所提变分方法在渐近意义下会收敛到精确解。本文通过仿真验证了变分方法的渐近有效性,其理论证明超出本文范围,将在未来研究中展开。目前关于变分方法渐近有效性和渐近一致性的研究较少,但已有部分相关成果:文献[30]讨论了线性状态空间系统变分方法的渐近有效性和渐近一致性缺失问题(其中“一致性”指当样本量趋近于无穷大时,精确EM方法与变分方法等效);文献[31]针对特定马尔可夫模型,证明了通过最大化变分证据下界得到的参数估计具有渐近一致性。
其次,讨论理论下界与性能曲线的关系。随着标准差增大,算法的错误概率和理论下界均随之增大,且理论下界与错误概率曲线之间的差距扩大。产生这一差距的主要原因是,多种错误事件都可能导致解交织错误,但本文分析仅聚焦于特定错误事件Eixy\mathcal{E}_i^{xy}Eixy(即第iii个脉冲识别错误而第i−1i-1i−1个脉冲识别正确)。随着标准差增大,多个连续脉冲被错误识别的概率升高,进一步扩大了差距。未来研究可从两个方向缩小下界与仿真曲线的差距:一是分析更广泛的解交织错误事件;二是融合到达时间等额外信息,改进算法性能分析,助力缩小差距。
尽管如此,所提变分方法仍表现出较低的错误概率,因此有理由认为,在实际应用中,变分方法可作为精确方法的有效替代方案。
五、仿真
通过对仿真混合脉冲序列开展综合实验,验证所提算法的有效性与优越性。5.1节介绍数据集、评估指标及当前主流的基准方法;5.2节呈现并讨论实验结果。
5.1 实验设置
5.1.1 数据集描述
本研究生成由3部雷达发射的混合脉冲序列。尽管雷达信号解交织可利用脉冲宽度(PW)、脉冲幅度(PA)等多个PDW参数,但本文遵循文献[32]的设置,仅聚焦于射频(RF)信息。在此设定下,字母表中的每个字母均建模为一元高斯随机变量。生成5类数据集以评估所提算法的有效性,数据集详情如表1所示。
表1 5类数据集的描述
| 雷达索引 | 射频调制类型 | 射频值(MHz) | PRI调制类型 | PRI值(μs) |
|---|---|---|---|---|
| 实验类别I(不交子字母表) | - | - | - | - |
| 1 | 滑动 | 1025, 1050, 1075, 1100, 1125 | 参差 | 70, 110 |
| 2 | 参差 | 900, 1000, 960, 980, 1120 | 参差 | 60, 100 |
| 3 | 驻留切换(D&S) | 910, 920, 930, 940, 950 | 参差 | 50, 120 |
| 实验类别II(非不交子字母表) | - | - | - | - |
| 1 | 滑动 | 1025, 1050, 1075, 1100, 1125 | 参差 | 70, 110 |
| 2 | 参差 | 910, 1000, 960, 980, 1125 | 参差 | 60, 100 |
| 3 | 驻留切换(D&S) | 910, 920, 930, 940, 950 | 参差 | 50, 120 |
| 实验类别III(时间性能) | - | - | - | - |
| 1 | 滑动 | [1000, 1100],共KKK个点 | 参差 | 70, 110 |
| 2 | 参差 | [1100, 1200],共KKK个点 | 参差 | 60, 100 |
| 3 | 驻留切换(D&S) | [1200, 1300],共KKK个点 | 参差 | 50, 120 |
| 实验类别IV(相同雷达) | - | - | - | - |
| 1 | 参差 | 1025, 1050, 1075, 1100, 1125 | 抖动 | 50 |
| 2 | 参差 | 1025, 1050, 1075, 1100, 1125 | 抖动 | 50 |
| 实验类别V(缺失脉冲) | - | 对实验类别I和II的脉冲按均匀分布随机丢弃,构建缺失脉冲场景 | - | - |
- 实验类别I:聚焦于单部雷达采用多频率时的雷达脉冲序列解交织,该场景下雷达无共享频率(即子字母表不交),脉冲缺失概率设为0.05。
- 实验类别II:聚焦于雷达采用多频率且允许频率共享的脉冲序列解交织,此时交织隐马尔可夫过程的子字母表非不交。具体而言,第2部雷达与第1部雷达共享1个频率、与第3部雷达共享1个频率(共享频率以粗体标注),脉冲缺失概率同样设为0.05。
- 实验类别III:评估算法处理时间。频率从预定义范围中均匀采样,每部雷达选择的频率数量对应KmK^mKm(表1中方括号定义频率范围);为简化计算,假设K1=K2=K3=KK^1=K^2=K^3=KK1=K2=K3=K,脉冲缺失概率设为0.05。
- 实验类别IV:针对两部“相同雷达”的脉冲解交织。“相同”指两部雷达的射频调制类型及数值、PRI调制类型及数值完全一致,仅初始射频值与初始PRI值不同;实验中,射频序列的初始相位从均匀分布中采样,脉冲缺失概率设为0.05。
- 实验类别V:评估算法对缺失脉冲的鲁棒性。脉冲缺失概率从0增至0.5(步长0.1);需说明的是,本节中驻留切换(D&S)调制的驻留点数量设为20。
5.1.2 评估指标
采用解交织准确率评估算法性能,计算公式为:
Pa=∑i=1TI(d^i=di)T(29)
P_a = \frac{\sum_{i=1}^T \mathbb{I}(\hat{d}_i = d_i)}{T} \tag{29}
Pa=T∑i=1TI(d^i=di)(29)
其中,d^i\hat{d}_id^i为第iii个观测的估计索引,did_idi为第iii个观测的真实索引;I(⋅)\mathbb{I}(\cdot)I(⋅)为指示函数。采用Munkres算法[33]将估计索引序列的随机索引映射到与真实索引序列重叠最大的索引集合,以消除索引随机性对准确率计算的影响。
5.1.3 基准方法
重新实现3种当前主流的解交织算法用于性能对比,具体如下:
- IMP(交织马尔可夫过程):文献[13]提出的解交织方案,将数据生成过程建模为交织马尔可夫过程P=IΠI(P1,…,PM;Psw)P=I_\Pi^I(P_1,\dots,P_M;P_{sw})P=IΠI(P1,…,PM;Psw),融合到达顺序(AO)与射频(RF)信息。由于该方法未估计单个脉冲的标签,无法直接适配本文实验,需对其改进(改进细节见附录E)。
- TEDS(马尔可夫更新链):文献[16]提出的解交织方案,将每个分量过程建模为马尔可夫更新链(p[φm],τ[φm])(p[\varphi^m],\tau[\varphi^m])(p[φm],τ[φm])(其中τ={τi}i=1T\tau=\{\tau_i\}_{i=1}^Tτ={τi}i=1T为字母的TOA序列,τ[φm]\tau[\varphi^m]τ[φm]为子字母表φm\varphi^mφm对应字母的TOA序列),融合时序信息与PDW信息。同理,该方法需改进以适配实验(改进细节见附录E)。
- OT(最优传输距离):文献[7]提出的解交织算法,流程为:先对观测序列聚类形成字母表,再计算所有字母间的最优传输距离矩阵,最后基于该矩阵通过层次聚类得到解交织结果。实验中假设聚类可形成正确字母表,且最优传输距离基于每个字母的平均PRI值计算;由于OT仅适用于不交子字母表场景,因此仅在实验类别I中参与对比。
为保证对比公平性,IMP与TEDS算法通过遗传算法(GA)[34]根据改进的代价函数优化。借助改进的代价函数,IMP与TEDS可适配非不交子字母表场景。
5.2 性能验证
由于基于EM的算法仅能保证收敛到局部最优,因此良好的初始化至关重要。实验中,采用狄利克雷过程混合模型(DPMM)[35]提取字母并形成字母表,再根据IMP[13]搜索字母表划分结果。基于该划分,验证所提方法与基准方法的性能。各方法的参数设置如表2所示;在相同雷达解交织仿真(实验类别IV)中,假设字母表划分已知。对每个数据集计算解交织准确率,并在100次蒙特卡洛仿真中取平均值。
表2 各方法的参数设置
| 方法 | 参数 | 描述 | 数值 |
|---|---|---|---|
| EM | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| PGAS | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| NNN | 粒子数量 | 1000 | |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| SVI | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| MFVI | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| IMP | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| β\betaβ | 惩罚参数 | 1 | |
| poppoppop | 遗传算法种群数量 | 3000 | |
| crcrcr | 遗传算法交叉率 | 0.99 | |
| srsrsr | 遗传算法选择率 | 0.05 | |
| vrvrvr | 遗传算法变异率 | 0.99 | |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| TEDS | Π\PiΠ | 字母表划分 | 由IMP初始化 |
| β\betaβ | 惩罚参数 | 1 | |
| poppoppop | 遗传算法种群数量 | 3000 | |
| crcrcr | 遗传算法交叉率 | 0.99 | |
| srsrsr | 遗传算法选择率 | 0.05 | |
| vrvrvr | 遗传算法变异率 | 0.99 | |
| ϵ\epsilonϵ | 收敛阈值 | 10−510^{-5}10−5 | |
| OT | ϑ\varthetaϑ | 阈值 | 0.01 |
5.2.1 解交织准确率
实验类别I(不交子字母表):评估不同射频标准差下的解交织准确率,标准差从0增至4(步长1),结果如图8(a)所示。可观察到:当标准差趋近于0时,除PGAS外,所有算法的准确率均趋近于1;PGAS性能较差的原因是其基于采样的后验轨迹会将不确定性引入结果。随着标准差增大,所有算法的准确率均下降;其中TEDS性能最佳,其次是IMP。
实验类别II(非不交子字母表):评估不同射频标准差下的解交织准确率,结果如图8(b)所示。与实验类别I一致,TEDS与IMP仍表现最优,PGAS与MFVI性能相对较差;但值得注意的是,SVI性能超过EM算法——这是因为EM算法需在大状态空间执行E步,而在非不交子字母表场景中,过多隐状态输出相同字母会导致参数估计误差增大(参数输出隐马尔可夫模型中,估计误差与隐状态数量成正比[29]),最终使EM性能下降。
图8 不交与非不交子字母表下的解交织准确率:(a)实验类别I;(b)实验类别II
进一步分析所提4种算法的性能差异:
- EM算法在不交子字母表中准确率最高,但在非不交场景中受大状态空间影响性能下降;
- SVI在两种场景中均保持较高准确率,且在非不交场景中优于EM,体现出对复杂状态空间的适配性;
- MFVI因“隐变量独立”假设过于严格,准确率始终低于SVI;
- PGAS因采样引入不确定性,准确率在所有场景中均最低。
基准方法中,OT性能最差——其采用PRI值计算传输距离,而参差PRI调制会破坏OT对“字母相似性”的假设(原始OT研究[7]采用脉冲幅度与TOA信息计算距离,更适配字母相似场景),导致性能下降,因此后续实验不再考虑OT。
5.2.2 时间性能对比
为评估各方法的计算效率,在实验类别III中改变KKK(每个雷达的频率数量),射频标准差设为3 MHz,在搭载Intel Core i7-13700K CPU的设备上通过MATLAB实现实验,记录处理时间与解交织准确率,结果如表3所示。
表3 所提方法与基准方法的时间性能及解交织准确率(最佳值用粗体标注)
| 方法 | K=5K=5K=5(时间/s,准确率) | K=10K=10K=10(时间/s,准确率) | K=15K=15K=15(时间/s,准确率) |
|---|---|---|---|
| EM | 1.7327,0.9723 | 2.7853,0.9899 | 6.6417,0.9969 |
| PGAS | 5.4185,0.9754 | 38.8000,0.9909 | 365.7490,0.9964 |
| SVI | 0.0446,0.9969 | 0.0617,0.9969 | 0.0680,0.9969 |
| MFVI | 0.0396,0.9754 | 0.0634,0.9959 | 0.1170,0.9989 |
| IMP | 7.9785,0.9909 | 17.3492,0.9949 | 18.0041,0.9989 |
| TEDS | 8.0974,1.0000 | 18.8247,1.0000 | 253.5000,0.6886 |
由表3可得出以下结论:
- SVI效率最优:单次迭代时间复杂度为O(T∑m=1M(Km)2+TM2)O\left(T\sum_{m=1}^M (K^m)^2 + TM^2\right)O(T∑m=1M(Km)2+TM2),且不受KKK增大的显著影响,始终保持最快处理速度;
- EM效率随KKK增长显著下降:由于EM需处理M∏m=1MKmM\prod_{m=1}^M K^mM∏m=1MKm个隐状态,KKK增大导致状态数量呈指数增长,处理时间急剧增加;
- PGAS、IMP、TEDS效率较低:PGAS需计算每个粒子的重要性权重,IMP与TEDS需通过遗传算法计算种群适应度,均导致计算负担加重,不适用于实时处理场景;
- MFVI效率接近SVI,但准确率较低:其“隐变量独立”假设简化了计算,但牺牲了模型表示能力,导致准确率低于SVI。
综合准确率与时间性能,SVI实现了最优平衡:相比IMP、TEDS,SVI处理速度提升两个数量级,且准确率仅略有下降;相比EM、PGAS、MFVI,SVI在准确率与效率上均占优。
5.2.3 对相同雷达的鲁棒性
相同雷达的解交织是公认的难题(两部雷达的PDW参数与调制模式完全一致,仅初始相位不同)。实验类别IV中,分别测试“初始相位差(IPD)变化”与“PRI标准差变化”对解交织准确率的影响,结果如图9所示。
图9 两部相同雷达的解交织准确率:(a)改变初始相位差;(b)固定初始相位差(20 μs),改变PRI标准差
- 初始相位差的影响(图9(a)):当IPD完全重叠(IPD=0,50,100,…)时,无法通过PDW信息区分脉冲,所有算法准确率均较低;当IPD不完全重叠时,SVI与IMP准确率迅速提升至近100%,而TEDS性能逐步提升——这是因为TEDS依赖TOA信息,而TOA对相位差的敏感度低于AO(SVI与IMP采用AO信息)。
- PRI标准差的影响(图9(b)):当PRI标准差小于8时,SVI与IMP性能相近;当标准差超过8时,SVI性能略有下降,但仍优于TEDS;TEDS受PRI偏差影响最大,因为其基于马尔可夫更新链建模TOA序列,PRI偏差会直接破坏时序相关性。
该实验表明:采用AO信息的方法(SVI、IMP)对相同雷达的鲁棒性优于依赖TOA的方法(TEDS),尤其在PRI存在偏差的场景中优势更显著。
5.2.4 对缺失脉冲的鲁棒性
实验类别V中,测试脉冲缺失概率(0~0.5,步长0.1)对解交织准确率的影响,射频标准差设为1 MHz,结果如图10所示。
图10 不交与非不交子字母表下缺失脉冲对解交织准确率的影响:(a)实验类别I;(b)实验类别II
由图10可见:
- IMP与TEDS性能随缺失概率增大显著下降:两者均基于“最小化熵值”的准则,脉冲缺失会破坏观测序列的完整性,导致熵值计算偏差增大;
- SVI性能保持稳健:其通过变分分布近似后验,能够有效处理观测不确定性,对脉冲缺失的容忍度更高;即使缺失概率达到0.5,SVI的准确率仍保持在0.85以上,显著优于其他方法。
六、结论
本文提出一种生成模型用于表示交织隐马尔可夫过程(IHMP),并将隐马尔可夫过程(HMP)混合解交织问题转化为后验推断问题。为计算后验概率,设计了1种精确推断算法(EM)与3种近似推断算法(PGAS、MFVI、SVI);同时,基于似然比检验推导了解交织错误概率的理论下界,用于评估算法性能。
在多类雷达数据集上的仿真验证了以下核心结论:
- SVI性能最优:在解交织准确率与计算效率之间实现了最佳平衡,可作为精确推断(EM)的有效替代方案;
- AO信息更鲁棒:依赖AO信息的方法(SVI、IMP)对PRI偏差与相同雷达场景的鲁棒性优于依赖TOA的方法(TEDS);
- SVI抗缺失能力强:相比IMP、TEDS,SVI对脉冲缺失的容忍度更高,在缺失概率0.5时仍保持高准确率。
未来研究将聚焦两个方向:
- 开发和积算法(SPA)[40,41]以降低精确推断的计算负担,该算法在多分量关联任务中已被证明有效;
- 探索模型基数自动确定方法[42],实现雷达数量与字母表划分的自适应学习,进一步提升算法的实用性。
雷达脉冲解交织方法研究
1603

被折叠的 条评论
为什么被折叠?



