Deinterleaving of Mixtures of Renewal Processes

Deinterleaving of Mixtures of Renewal Processes

Jeremy Young
TSP

摘要

本文提出一种基于纯脉冲间隔的多输入单输出系统脉冲源分离(解交织)新方法。每个源的脉冲间隔建模为更新过程,为实现源分类,开发了基于脉冲间隔分布最大化脉冲分配似然度的算法。推导了性能的理论下界,且该算法被证明能接近此下界。将算法扩展至脉冲间隔分布参数未知的场景,并在多个应用实例中评估了性能。

索引词

解交织、点击序列、抖动脉冲重复间隔雷达、源分离、更新过程、海洋哺乳动物、脉冲源、多输入单输出

I. 引言

我们研究如下问题:源k∈{ 1,...,K}k \in \{1, ..., K\}k{ 1,...,K}在时刻τk,i∈[0,T]\tau_{k,i} \in [0, T]τk,i[0,T]产生事件(事件可为数据包传输或脉冲信号发射),观测者获得所有脉冲集合{ τk,i}\{\tau_{k,i}\}{ τk,i}但无任何标签,能否仅通过时序信息确定每个事件时刻所属的源?

该问题由多种应用场景驱动,包括:

  • 计算机网络:数据包的时序能否揭示发送者身份?
  • 海洋哺乳动物:能否仅基于时序分离海洋哺乳动物的回声定位点击序列[1], [2]?
  • 雷达和声纳:能否仅利用脉冲到达时间被动分离(解交织[3]-[7])多个脉冲雷达信号?
  • 心跳:在混合心跳信号中(如胎儿心电图[8]),能否仅通过时序区分母亲和胎儿(多胎妊娠)的心跳?
  • 神经系统:在神经峰电位序列记录中,能否分离不同源的峰电位序列[9]?

在许多应用中,除时序外还有脉冲幅度、形状等特征可辅助分离,但深入理解纯时序分离的基础问题仍具价值。例如,隐私/安全限制或传输带宽约束可能导致仅能获取时序信息;在次要特征未知的情况下,纯时序分离可作为初始分析手段;即使次要特征已知,本文方法遵循经典思路(如信息论[10]):由实际问题构建简单理论/数学模型,深入研究后扩展至实际应用。未来可将本文纯时序分离算法扩展至融合次要特征,以适应真实场景。

脉冲序列分离并非新问题。例如,已有文献提出多种单传感器记录中海洋哺乳动物点击序列的分离方法:[11]利用点击互相关建立点击间关系并分离序列;[12]基于点击相关性、脉冲间隔细节和频率特征分离抹香鲸点击序列(最终依赖双水听器时延估计);[13]对点击提取特征进行聚类分析;[14]逐次匹配连续点击的频谱;[15]基于频谱差异性分离序列。这些方法依赖点击序列内脉冲形状的慢变特性,仅有少数方法利用时序信息:[16]通过跟踪点击幅度和点击间隔(ICI)的慢变化分离两个点击序列;Baggenstoss的算法[17]-[19]基于包括ICI在内的点击对特征定义统计相似度度量,最大化关联点击的全局相似度;[20]与本文类似,仅基于时序分析点击序列,利用[21]的脉冲重复间隔(PRI)变换估计ICI并扩展至时变ICI,但未对每个脉冲进行分类。

仅基于脉冲到达时间的雷达信号解交织也已有研究(如[4]-[7], [22]-[25])。雷达信号通常为周期性、交错式或抖动式,抖动PRI雷达中发射机为每个PRI添加随机时间,使其成为更新过程(见第二节),因此本文更新过程的结果可直接应用于抖动PRI雷达信号解交织。[6]考虑带噪声的到达时间,[7]采用PRI随机游走模型,[21]专门研究抖动PRI但仅用于估计PRI,[22]-[25]开发抖动PRI解交织的启发式方法。本文算法为该问题提供最优解,并在第VI-C1节与[22]-[25]进行比较。

本文专门开发基于纯时序的更新过程分离(解交织)算法,我们认为这是一个新问题。


II. 系统模型与问题描述

考虑包含KKK个源的系统模型,每个源产生事件或发射类脉冲信号。源kkk在时刻τk,i\tau_{k,i}τk,i发射脉冲序列,假设脉冲响应的支撑集远小于脉冲间隔,因此无重叠(精确来说,重叠概率足够低可忽略)。不失一般性,假设第一个脉冲发生在t=0t=0t=0时刻。

我们需确定每个脉冲所属的源,目标仅基于未分类的脉冲时刻{ τi}\{\tau_i\}{ τi}进行分类,假设脉冲已通过低误差概率的检测算法提取。

为仅基于时序信息分类{ τi}\{\tau_i\}{ τi},做出如下假设:

  • 脉冲间隔τk,i−τk,i−1>0\tau_{k,i} - \tau_{k,i-1} > 0τk,iτk,i1>0服从参数化先验分布Tk(t)T_k(t)Tk(t),其参数可能已知或未知;
  • 对于k≠lk \neq lk=li≠ji \neq ji=j,脉冲间隔τk,i−τk,i−1\tau_{k,i} - \tau_{k,i-1}τk,iτk,i1τl,j−τl,j−1\tau_{l,j} - \tau_{l,j-1}τl,jτl,j1相互独立。

基于这些假设,单个源的事件时刻集合构成更新过程或计数过程[26, 第8.3节],最著名的例子是泊松过程。更新过程广泛用于建模多种过程[26, 第8.3节],尤其适用于生物信号建模。从推测角度,生物系统可能没有内部节拍器控制事件(如心跳、点击)产生,而是通过计时器倒计时至下一个事件;为生成近周期性信号,时序分布可在均值附近高度集中。时序分布可能非独立,但一阶近似通常假设独立,从而形成更新过程。虽然点击序列的最优模型未知,但心跳常以此方式建模[27]。

在许多应用中,先验分布Tk(t)T_k(t)Tk(t)的类型未知,若无进一步信息,截断高斯分布是合理假设。从中心极限定理或最大熵角度可论证截断高斯分布的合理性:给定均值μ\muμ和方差σ2\sigma^2σ2,具有最大熵的正分布正是截断高斯分布[28]。为满足脉冲间隔非负约束,需在0处截断分布。定义均值为μ\muμ、方差为σ2\sigma^2σ2的0截断高斯分布为N0(μ,σ2)N_0(\mu, \sigma^2)N0(μ,σ2),其概率密度函数为:
f(x)=1Φ(μσ)2πσ2exp⁡(−(x−μ)22σ2)(x>0)f(x) = \frac{1}{\Phi(\frac{\mu}{\sigma}) \sqrt{2 \pi \sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) \quad (x>0)f(x)=Φ(σμ)2πσ2 1exp(2σ2(xμ)2)(x>0)
其中Φ\PhiΦ为标准正态累积分布函数[26]。在多数情况下,μ≫0\mu \gg 0μ0μ≫σ\mu \gg \sigmaμσ,因此截断修正项Φ(μσ)\Phi(\frac{\mu}{\sigma})Φ(σμ)接近1,在许多计算中可忽略。

通过错误概率评估算法性能,即脉冲被错误分类的概率。设Di∈{ 1,...,K}D_i \in \{1, ..., K\}Di{ 1,...,K}表示时刻τi\tau_iτi脉冲的真实源,D^i\hat{D}_iD^i为估计值,定义源kkk的错误概率为:
Pϵ,k=lim⁡T→∞P(D^j≠Dj∣Dj=k)P_{\epsilon, k} = \lim_{T \to \infty} P(\hat{D}_j \neq D_j | D_j = k)Pϵ,k=TlimP(D^j=DjDj=k)
总错误概率为:
Pe=lim⁡T→∞P(D^j≠Dj)(1)P_e = \lim_{T \to \infty} P(\hat{D}_j \neq D_j) \tag{1}Pe=TlimP(D^j=Dj)(1)


III. 已知参数的时序分离

基础方法中,假设源数量和先验分布完全已知,问题转化为利用已知先验分布Tk(t)T_k(t)Tk(t),仅基于脉冲时刻{ τi}\{\tau_i\}{ τi}对脉冲分类。考虑最大似然(ML)解:
max⁡DL;L=∑k=1K∑ilog⁡Tk(τSk(i)−τSk(i−1))\max_D L; \quad L = \sum_{k=1}^K \sum_i \log \mathcal{T}_k \left(\tau_{S_k(i)} - \tau_{S_k(i-1)}\right)DmaxL;L=k=1KilogTk(τSk(i)τSk(i1))
其中Sk(i)S_k(i)Sk(i)表示分配给第kkk个源的第iii个脉冲,是D^=(D1,D2,...)\hat{D} = (D_1, D_2, ...)D^=(D1,D2,...)的函数。例如,若两个源的D^=(1,1,2,1,2,2)\hat{D} = (1,1,2,1,2,2)D^=(1,1,2,1,2,2),则S1=(1,2,4)S_1 = (1,2,4)S1=(1,2,4)S2=(3,5,6)S_2 = (3,5,6)S2=(3,5,6)

暴力最大化式(2)的复杂度为O(KM)O(K^M)O(KM)MMM为接收信号中的总脉冲数);借鉴维特比算法[30], [31]的思想,可得到更低复杂度的算法。为开发这些算法,首先以适应当前场景的方式描述维特比算法:假设需在时刻1,2,3,...1,2,3,...1,2,3,...KKK个选项中决策,且过程为马尔可夫过程。时刻iii的路径为决策集合Pi={ D^j;j=1,...,i}P_i = \{\hat{D}_j; j=1,...,i\}Pi={ D^j;j=1,...,i}Pi,kP_{i,k}Pi,k表示指向D^i=k\hat{D}_i = kD^i=k的路径集合。由于马尔可夫性,时刻i+1,i+2,...i+1, i+2,...i+1,i+2,...的最优决策与导致D^i=k\hat{D}_i = kD^i=k的路径无关,因此只需记忆每个kkk对应的最优路径。每个阶段有KKK条最优路径,对每条指向D^i=k\hat{D}_i = kD^i=k的最优路径,考虑扩展至时刻i+1i+1i+1KKK种可能,再为每个D^i+1=k\hat{D}_{i+1} = kD^i+1=k选择KKK条最优路径,复杂度为O(MK)O(MK)O(MK)

对于时序分离,每个源的时序过程假设为马尔可夫过程(即更新过程),但混合过程通常不满足马尔可夫性,时刻i+1,i+2,...i+1, i+2,...i+1,i+2,...的决策并非仅依赖时刻iii的决策。然而,仍可丢弃大量路径,具体如下:对路径PiP_iPi,定义dk(Pi)d_k(P_i)dk(Pi)为距上一个分配给源kkk的脉冲的脉冲数。例如,若P6=D^=(1,1,2,1,2,2)P_6 = \hat{D} = (1,1,2,1,2,2)P6=D^=(1,1,2,1,2,2),则d1(P6)=2d_1(P_6) = 2d1(P6)=2d2(P6)=0d_2(P_6) = 0d2(P6)=0d3(P6)=∞d_3(P_6) = \inftyd3(P6)=。关键观察:与维特比算法类似,具有相同KKK元组(d1(Pi),d2(Pi),...,dK(Pi))(d_1(P_i), d_2(P_i), ..., d_K(P_i))(d1(Pi),d2(Pi),...,dK(Pi))的路径对未来决策等价。通过示例可清晰理解:假设P100=(...,3,1,1,2,1,2,2)P_{100} = (... , 3, 1, 1, 2, 1, 2, 2)P100=(...,3,1,1,2,1,2,2),当脉冲101分配给三个源时,似然度分别添加如下项:

  • D101=1D_{101} = 1D101=1log⁡T1(τ101−τ98)\log \mathcal{T}_1(\tau_{101} - \tau_{98})logT1(τ101τ98)
  • D101=2D_{101} = 2D101=2log⁡T2(τ101−τ100)\log \mathcal{T}_2(\tau_{101} - \tau_{100})logT2(τ101τ100)
  • D101=3D_{101} = 3D101=3log⁡T3(τ101−τ94)\log \mathcal{T}_3(\tau_{101} - \tau_{94})logT3(τ101τ94)

显然,这些项与路径中“…”表示的3之前的部分无关;若P100=(...,3,2,1,1,2,1,2,2)P_{100} = (... , 3, 2, 1, 1, 2, 1, 2, 2)P100=(...,3,2,1,1,2,1,2,2),则修正项为:

  • D101=1D_{101} = 1D101=1log⁡T1(τ101−τ98)\log \mathcal{T}_1(\tau_{101} - \tau_{98})logT1(τ101τ98)
  • D101=2D_{101} = 2D101=2log⁡T2(τ101−τ100)\log \mathcal{T}_2(\tau_{101} - \tau_{100})logT2(τ101τ100)
  • D101=3D_{101} = 3D101=3log⁡T3(τ101−τ93)\log \mathcal{T}_3(\tau_{101} - \tau_{93})logT3(τ101τ93)

因此,时刻101决策的似然度仅依赖路径的尾部,且由KKK元组(d1(Pi),...,dK(Pi))(d_1(P_i), ..., d_K(P_i))(d1(Pi),...,dK(Pi))完全表征。因此,对于具有相同KKK元组的路径,只需记忆最优路径。根据定义,dk(Pi)d_k(P_i)dk(Pi)可取i+1i+1i+1个值(即0,1,...,i−1,∞0,1,...,i-1,\infty0,1,...,i1,),且不同kkkdk(Pi)d_k(P_i)dk(Pi)不同。因此,时刻iii的独特路径数为(i+1)i(i−1)⋯(i+1−(K−1))∼iK(i+1)i(i-1)\cdots(i+1-(K-1)) \sim i^K(i+1)i(i1)(i+1(K1))iK,总体复杂度(需记忆的路径数)为O(MK+1)O(M^{K+1})O(MK+1),对于中等MMMKKK可行。该ML算法如算法1(记为A1)所示。

对于大MMM,复杂度仍过高,因此考虑简化算法。首先注意,许多最优解路径的最终成为最优解的可能性极低。对路径PiP_iPi,除dk(Pi)d_k(P_i)dk(Pi)外,定义rk(Pi)r_k(P_i)rk(Pi)为距上一个分配给源kkk的脉冲的实际时间。设TkT_kTk满足:
∫Tk∞Tk(τ)dτ<ϵ\int_{T_k}^{\infty} \mathcal{T}_k(\tau) d\tau < \epsilonTkTk(τ)dτ<ϵ
其中ϵ\epsilonϵ为小值。若rk(Pi)>Tkr_k(P_i) > T_krk(Pi)>Tk,则将路径PiP_iPi扩展为j>ij>ij>iD^j=k\hat{D}_j = kD^j=k,似然度至少添加log⁡ϵ\log \epsilonlogϵ项。若ϵ\epsilonϵ很小,该项为较大负值,使得路径PPP的扩展很难成为最大似然解,称为“源超时(STO)”。因此,可从保留路径集中剔除此类路径,与最优解相比损失极小(若ϵ\epsilonϵ选择合理)。该STO算法如算法2(记为A2)所示。

算法1:(A1)已知分布下仅基于时序分离的精确最大似然解

输入:KKK个源、TkT_kTk、观测τi\tau_iτii=1,...,Mi=1,...,Mi=1,...,M

  1. 初始化τ1\tau_1τ1的分配:前KKK条路径中τ1\tau_1τ1分别标记为1,...,K1,...,K1,...,K,设i=1i=1i=1
  2. 对每条路径,考虑τi+1\tau_{i+1}τi+1分配给源k=1,...,Kk=1,...,Kk=1,...,K的扩展:
    a. 对每个扩展路径Pi+1P_{i+1}Pi+1,更新(d1(Pi),...,dK(Pi))(d_1(P_i), ..., d_K(P_i))(d1(Pi
<think>嗯,用户让我介绍一下《Adaptive Mixtures of Local Experts》这篇论文的阅读笔记。首先,我需要回忆一下这篇论文的主要内容。好像是关于机器学习中专家混合模型的,对吧?作者是Michael Jordan和Robert Jacobs,应该是在90年代初发表的。用户可能需要了解论文的核心思想、方法以及应用场景。 用户可能对专家混合模型不太熟悉,所以得先解释清楚基本概念。然后,要说明这篇论文的创新点在哪里,比如自适应分配训练样本到不同的专家网络,以及如何通过门控网络进行整合。可能还需要对比传统的混合模型,突出其优势,比如处理复杂模式的能力。 接下来,用户可能想知道论文的方法论部分。我需要分点说明模型结构、训练算法,比如期望最大化(EM)算法的应用,以及损失函数的设计。这部分要注意用清晰的中文,避免太技术化的术语,但又要准确。同时,用户提到要使用正确的LaTeX格式,所以里面的数学公式需要用$$...$$和$...$正确标注,比如似然函数和梯度下降的公式。 然后,可能需要讨论实验部分,论文中提到的应用场景,比如非线性分类、函数逼近等。要说明实验结果如何支持论文的观点,比如专家网络如何分工合作,提升模型性能。此外,优缺点分析也很重要,比如计算复杂度高,可能过拟合的问题,这样用户能全面了解。 还要考虑用户的需求层次,他们可能是研究生或者刚入门的研究者,需要结构清晰的笔记帮助快速理解论文。所以回答要分章节,比如摘要、核心思想、模型结构、训练方法、实验结果、总结等。同时,用户可能希望知道这篇论文的后续影响,比如在深度学习中的应用,所以可以提到现代模型中的类似思想,比如MoE(Mixture of Experts)。 在写作过程中,要确保LaTeX公式的正确性,比如行内公式用$...$,独立公式用$$...$$并单独成段。例如,门控网络的输出公式要用独立格式,而似然函数中的求和可以用行内格式。同时,注意中文表达流畅,避免直译英文术语,必要时解释概念。 可能还需要检查是否有遗漏的重点,比如模型的可扩展性、实际应用案例等。用户可能对如何实现这个模型感兴趣,所以可以简要提及训练步骤,比如分阶段训练专家和门控网络。此外,强调自适应分配样本的重要性,说明为什么这比传统方法更有效。 最后,总结部分要概括论文的贡献,并指出其优缺点,帮助用户评估该模型是否适合他们的问题。同时,展望后续工作,让读者了解该研究的延续性。整个过程需要保持逻辑清晰,逐步引导用户理解论文内容,确保信息准确可靠。</think>以下是对《Adaptive Mixtures of Local Experts》论文的阅读笔记整理,采用结构化表述: --- ### 1. **论文概要** - **作者**: Michael I. Jordan & Robert A. Jacobs (1991) - **核心问题**: 如何通过模块化神经网络结构解决复杂非线性问题 - **关键思想**: 将任务分解到多个"专家网络"(Local Experts),通过门控网络(Gating Network)动态分配样本并组合结果 --- ### 2. **核心方法** #### 2.1 模型结构 - **专家网络** $E_k(x)$: 多个并行子网络,每个学习输入空间的不同区域 - **门控网络** $G(x)$: 学习样本分配权重,满足 $\sum_{k=1}^K g_k(x) = 1$ - **最终输出**: $$y = \sum_{k=1}^K g_k(x) \cdot E_k(x)$$ #### 2.2 训练算法 - **目标函数**: 最大化对数似然 $$\mathcal{L} = \sum_{i=1}^N \log \sum_{k=1}^K g_k(x_i) \cdot P(y_i | E_k(x_i))$$ - **EM算法步骤**: 1. **E-step**: 计算样本$i$对专家$k$的后验责任(responsibility) $$r_{ik} = \frac{g_k(x_i)P(y_i|E_k(x_i))}{\sum_{j=1}^K g_j(x_i)P(y_i|E_j(x_i))}$$ 2. **M-step**: 更新专家网络参数和门控网络参数 - 专家网络:梯度下降最小化加权损失 $\sum_i r_{ik} \|y_i - E_k(x_i)\|^2$ - 门控网络:通过softmax回归更新权重 #### 2.3 自适应特性 - **空间划分自适应**: 门控网络自动学习输入空间的划分方式 - **专家专业化**: 通过竞争机制使不同专家聚焦不同数据区域 --- ### 3. **实验结果** - **基准任务**: - 非线性分类(如XOR问题) - 函数逼近(分段连续函数) - **关键发现**: - 比单一网络收敛更快 - 专家网络自发形成区域专业化 - 门控网络实现有效任务分解 --- ### 4. **理论贡献** - **混合模型新范式**: 突破了传统固定混合系数的方法 - **概率解释**: 为模型提供了EM算法的理论支撑 - **生物学启发**: 模仿大脑功能分区机制 --- ### 5. **优缺点分析** #### 优点: - 有效处理多模态数据 - 降低单一网络的复杂度 - 可解释性强(专家分工可见) #### 局限: - EM算法收敛速度依赖初始化 - 专家数量需预先设定 - 可能陷入局部最优 --- ### 6. **后续影响** - **现代应用**: - 集成学习的前身 - 与Attention机制有内在联系 - 影响MoE(Mixture of Experts)系列模型发展 - **扩展方向**: - 层级化专家结构 - 在线学习版本 - 结合深度学习框架 --- ### 7. **代码实现要点** ```python # 伪代码示例 for epoch in epochs: # 前向传播 expert_outputs = [expert(x) for expert in experts] gating_weights = softmax(gating_net(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BetterInsight

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值