Joint recognition and parameter estimation of cognitive radar work modes with LSTM-transformer

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 682 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

文献阅读专栏收录该内容

75 篇文章

订阅专栏

Joint recognition and parameter estimation of cognitive radar work modes with LSTM-transformer

Ziwei Zhang
DSP

摘要

近年来发展的认知雷达能够通过可编程调制类型和针对每种模式定义参数的优化调制值，实现灵活的工作模式。这些工作模式的自动分析对现代电磁侦察接收机构成了重大挑战。本文提出一种基于多输出多结构（MOMS）学习的处理框架，用于脉冲间自动调制识别与参数估计联合任务（JMRPE-MOMS）。我们提出一种标签构建方法作为网络的特征解释手段，以支持MOMS学习，并利用标签间的相关性提升性能。此外，设计了LSTM-Transformer架构以挖掘深层时间序列特征，该架构能够建模局部和全局关系，并减少量化损失。所提框架可同时执行调制识别和参数估计（JMRPE）任务，具有灵活的输出结构，包括标量输出、固定尺寸向量输出和可变尺寸向量输出。基于脉冲重复间隔（PRI）序列定义的仿真雷达工作模式进行了大量仿真，结果验证了所提方法的有效性和优越性，尤其是在非理想电磁环境下。

1. 引言

优化理论、知识辅助信号处理和人工智能的最新发展，使多功能雷达（MFR）和认知雷达（CR）等先进雷达能够通过编排特定的脉冲序列（即工作模式），充分挖掘雷达系统的性能潜力，从而实现高度的灵活性和适应性。然而，工作模式实现自由度的增加（可能涉及多种调制类型和针对不同模式定义参数的调制参数），给侦察接收机分析截获的脉冲序列带来了巨大挑战。

上述识别任务可分为两个子任务：自动调制识别（AMR）任务和调制参数估计（MPE）任务。AMR旨在识别每个模式定义参数的脉冲间调制类型，MPE则针对给定的调制类型估计每个调制参数的具体数值。以高斯抖动PRI调制为例，AMR需要识别抖动调制类型，MPE需要估计抖动调制类型的两个基本参数（即均值和方差）。

早期的脉冲间调制AMR尝试通常采用统计方法，如脉冲间隔直方图、多层感知器（MLP）、手工设计特征提取和自相关等。然而，对人工设计特征的严重依赖通常导致复杂度高，且在实际应用的非理想条件下性能较差。

随后，基于深度学习（DL）的方法因其强大的自动特征提取和关系表征能力而被广泛应用。基于卷积神经网络（CNN）的AMR方法在复杂环境中表现出更高的性能。但这些基于CNN的AMR方法要求输入具有固定尺寸，无法适应由可变数量脉冲组成的不同工作模式。之后，循环神经网络（RNN）被引入用于识别可变脉冲数量的脉冲序列。由于基于RNN的方法在提取时间序列特征方面的强大能力，这些方法在雷达领域受到了广泛关注。总之，所有上述基于DL的方法均提升了识别性能，尤其是在脉冲缺失或虚假等非理想条件下。

由于调制参数的具体数值和变化能够揭示认知雷达系统优化过程的重要信息，MPE任务对于认知雷达工作模式识别至关重要。与AMR任务的大量研究不同，该领域的相关研究相对较少。此外，所有这些传统方法仅能从统计角度确定脉冲描述字（PDW）参数的离散值，而无法估计调制参数。

将AMR和MPE视为认知雷达工作模式识别中两个不同但相关的子任务，直观上可以采用多任务学习策略来解决，例如我们之前的工作。该工作的一个主要局限性是其固定数量的回归输出节点，只能处理标量格式的参数。然而，在实际应用中，不同调制类型的输出参数数量可能是可变的，且参数的实际结构可能是标量、固定尺寸向量或可变尺寸向量。基于上述动机，本文考虑采用多输出多结构（MOMS）学习，因其能够同时预测具有不同结构的可变数量输出。

本文提出一种基于LSTM-Transformer架构的MOMS学习框架（命名为JMRPE-MOMS），用于联合调制识别和参数估计（JMRPE）任务。该框架由三个级联组件组成：标签构建、数据投影和编码器-解码器堆栈。在标签构建中，提出序列化和量化方案，将雷达工作模式描述（如调制类型和调制参数）转换为可变长度的离散元素序列。在数据投影中，采用LSTM堆栈挖掘信号序列的深层时间序列特征，并为标签序列设计嵌入层。随后，利用编码器-解码器堆栈完成全局特征提取和目标序列生成。在训练阶段，采用教师强制机制加速收敛；在测试阶段，训练后的模型在每个输出步骤中进行自回归，将先前预测的元素作为解码器堆栈当前元素预测的附加输入。基于PRI参数定义的雷达工作模式的大量仿真验证了所提方法的有效性和优越性。

本文的主要贡献总结如下：

提出一种新的基于LSTM-Transformer的MOMS学习框架（JMRPE-MOMS），用于认知雷达的细粒度工作模式识别。该框架可同时执行AMR和MPE任务，并以灵活的结构输出MPE结果。
详细阐述一种支持MOMS学习的标签构建方法，为神经网络提供一种新的特征解释方式。此外，通过标签构建利用不同输出间的相关性提升性能。
提出LSTM-Transformer架构以充分挖掘雷达脉冲序列的时间特征。Transformer凭借其自注意力机制在全局特征建模方面具有固有优势；LSTM堆栈可减少传统Transformer架构导致的量化损失，并具有更强的局部关系建模能力。LSTM-Transformer结合了两者的优势，提升了性能。

本文其余部分组织如下：第2节描述认知雷达工作模式识别中自动调制识别和调制参数估计任务的问题建模；第3节介绍基于LSTM-Transformer架构的JMRPE任务实现方法；第4节呈现仿真结果及讨论；最后在第5节总结全文。此外，表1总结了本文使用的符号。

表1 符号说明

符号	定义
$P$	雷达工作模式
$p$	雷达脉冲
$T$	雷达脉冲序列长度
$Ψ\Psi$	模式定义参数
$H$	模式定义参数数量
$Ω\Omega$	调制类型
$D$	调制类型数量
$Θ\Theta$	调制参数
$G$	调制参数数量
$u$	观测到的到达时间（TOA）序列
$J$	标签序列长度
$B$	调制参数最大值
$δ\delta$	离散化间隔
$d_{model}$	嵌入维度
$q$	查询向量
$k$	键向量
$v$	值向量
$z$	自注意力层输出
$w$	权重矩阵
$P o s$	位置编码矩阵

2. 问题建模

本节首先定义雷达工作模式，然后给出理想和非理想情况下脉冲间调制的数学模型，随后阐述雷达脉冲序列的JMRPE任务，最后描述JMRPE的多输出多结构学习映射。

2.1 可编程雷达工作模式的分层定义

本节首先基于PDW数据定义的多个参数来定义工作模式，然后从实现角度给出雷达工作模式的两级表示方法。

定义1：雷达工作模式 $P$ 被定义为有限数量有序脉冲的特定编排，用于实现特定的雷达功能，即 $,pT)∈RH×TP=(p_1, p_2, \cdots, p_T) \in \mathbb{R}^{H×T}$ 。工作模式 $P$ 中的雷达脉冲 $\in \mathbb{R}^H$ 由 $H$ 个模式定义参数的实值向量表示，即 $,pH)Tp=(p_1, p_2, \cdots, p_H)^T$ 。

定义2：模式定义参数用于描述雷达工作模式的特定特征。从雷达角度来看，模式定义参数可指脉冲描述字（PDW）中与工作模式相关的一些参数，如PRI、射频（RF）、脉冲宽度（PW）和脉冲内调制等。

定义3：调制类型指模式定义参数的调制模式。典型的脉冲间调制类型包括恒定型、抖动型和交错型。不同模式定义参数对应的调制类型有所不同。

定义4：调制参数指定义调制类型的特定调制参数（例如，抖动调制类型的均值和方差）。

数学上，设 $,ΨH}\Psi=\{\Psi_1, \Psi_2, \cdots, \Psi_H\}$ 为 $H$ 个模式定义参数的集合，第 $h$ 个模式定义参数的调制类型集合可表示为 $,ΩhDh}\Omega_h=\{\Omega_h^1, \Omega_h^2, \cdots, \Omega_h^{D_h}\}$ ，其中 $D_h$ 为第 $h$ 个模式定义参数的调制类型数量。对于第 $d$ 种调制类型 $Ωhd\Omega_h^d$ （ $1 ≤d ≤D_h$ ）， $,θhd,Gd)\Theta_h^d=(\theta_h^{d,1}, \theta_h^{d,2}, \cdots, \theta_h^{d,G_d})$ 表示对应的调制参数，其中 $G_d$ 为第 $d$ 种调制类型的调制参数数量。因此，雷达工作模式可通过多个模式定义参数的联合组合（包括对应的调制类型和调制参数）描述如下：
$=\bigcup_{h=1}^{H} \Psi_{h}=\bigcup_{h=1}^{H}\left\{\Omega_{h}^{d} \in\left\{\Omega_{h}^{1}, \Omega_{h}^{2}, \cdots, \Omega_{h}^{D_{h}}\right\},\right.$
$,θhd,Gd)},1≤d≤Dh\Theta _{h}^{d}=\left( \theta _{h}^{d,1},\theta _{h}^{d,2},\cdots ,\theta _{h}^{d,G_{d}}\right) \} ,1\leq d\leq D_{h}$

图1给出了上述定义的雷达工作模式示例。

2.2 PRI调制的数学建模

2.2.1 理想条件下的基本模型

PRI数据本质上是时序数据，其时间序列特征比RF等其他参数更为复杂。不失一般性，本文仅基于PRI这一单一PDW参数定义工作模式并讨论相应方法。尽管文献中建立了六种常用的PRI调制类型，但本文研究五种基本模型，包括恒定PRI、抖动PRI、滑动PRI、交错PRI和正弦PRI。其他调制类型可基于这些调制扩展，例如驻留和切换调制可视为多个连续的恒定调制。这四种调制的参数模型在文献中给出。

2.2.2 脉冲缺失或虚假条件下的模型

在实际电磁环境中，不可避免地会面临导致接收机中出现脉冲缺失或虚假的非理想情况。脉冲缺失可能由天线扫描模式、接收机电路灵敏度或较差的信噪比（SNR）条件引起，而虚假脉冲可能由多径效应和接收机电路缺陷引起。截获的PRI序列不太可能完全符合文献中描述的数学模型。

因此，需要为两种非理想条件建立有效的数学模型。PRI序列表示为 $,pT)P=(p_1, p_2, \cdots, p_T)$ 。在实际应用中，电磁接收机无法直接观测PRI值，而是记录每个脉冲的到达时间（TOA），即：
$,TTOA_t = TOA_{t-1} + p_t, t=2, \cdots, T$

采用非随机二进制索引序列描述脉冲缺失：
$,To_{t}=\begin{cases}1, & 若TOA_t被观测到 \\ 0, & 若TOA_t未被观测到 \end{cases}, t=1, \cdots, T$

设 $t_{miss}=(t_1, t_2, ..., t_{A_m})$ 为满足 $o_{t_a}=1$ 的递增时间序列，其中 $A_m ≤T$ 为观测到的脉冲总数。则观测到的TOA序列表示为：
$,Amu_a = TOA_{t_a}, a=1, \cdots, A_m$

上述非随机二进制索引由脉冲缺失的生成机制控制。假设脉冲缺失服从均匀分布， $o_t$ 为独立同分布的伯努利随机变量，即：
$P{ot=1}=1−P{ot=0}=εP\{o_t=1\} = 1 - P\{o_t=0\} = \varepsilon$
其中 $≤\varepsilon<1$ 为脉冲缺失发生的概率。类似地，含虚假脉冲的观测TOA序列 $u_t$ （ $\cdots, T$ ）可通过非随机二进制索引描述：
$,To_{t}=\begin{cases}1, & 若u_t不是虚假脉冲 \\ 0, & 若u_t是虚假脉冲 \end{cases}, t=1, \cdots, T$

设 $t_{spur}=(t_1, t_2, ..., t_{A_s})$ 为满足 $o_{t_a}=1$ 的递增时间序列，其中 $A_s ≤T$ 为真实脉冲总数。则真实TOA序列表示为：
$,AsTOA_a = u_{t_a}, a=1, \cdots, A_s$

图2给出了均匀分布的脉冲缺失和虚假条件下数学模型的图示说明。基于上述建立的参数模型，可设计相应的参数估计方法。

2.3 基于多输出学习的JMRPE建模

本节首先介绍JMRPE任务的功能需求，随后给出JMRPE任务的多输出学习数学建模。

认知雷达可以为工作模式调度特定的脉冲序列，这些序列具有不同的PRI调制类型和对应的调制参数。雷达工作模式分析可通过JMRPE任务实现，该任务包含AMR任务和多个MPE任务。将每个子任务建模为特定输出，本文将雷达脉冲序列的JMRPE任务数学建模为多输出多结构学习任务：

长度为 $T$ 的输入PRI序列 $x$ 表示为：
$,xT)∈Xx=(x_1, x_2, \cdots, x_T) \in X$
其中 $x_t$ （ $1 \leq t \leq T$ ）为第 $t$ 个脉冲的PRI值。

长度为 $J$ 的输出标签 $y$ 表示为：
$,yJ)∈Yy=(y_1, y_2, \cdots, y_J) \in Y$
其中 $y_j$ （ $1 \leq j \leq J$ ）为第 $j$ 个输出。设 $X=RdX=\mathbb{R}^d$ 为 $d$ 维输入空间， $Y=RmY=\mathbb{R}^m$ 为 $m$ 维输出标签空间。基于多输出学习的JMRPE任务从训练数据集 $D=\{(x_i, y_i) | 1 ≤i ≤n\}$ 中学习函数 $\to Y$ 。对于每个训练样本 $x_i, y_i)$ ， $xi∈Xx_i \in X$ 为输入PRI序列， $yi∈Yy_i \in Y$ 为与 $x_i$ 对应的输出。不同输出属于不同的子问题，具有不同的标签空间。这些子问题通过统一的JMRPE-MOMS框架求解，以找到函数 $\to \mathbb{R}$ ，其中 $F (x, y)$ 为评估输入 $x$ 和输出 $y$ 之间兼容性的兼容性函数。给定测试样本 $\in X$ ，学习到的函数 $f(⋅)f(\cdot)$ 输出最大兼容性得分，即 $f(x)=y^=arg⁡maxy∈YF(x,y)f(x)=\hat{y}=\underset{y \in Y}{\arg max } F(x, y)$ 。

图3给出了滑动和交错调制映射到JMRPE任务的多输出多结构学习的图示说明。需注意，图3中输出有三种结构，且特定输出可以是标量形式或固定/可变长度的向量形式。对于图3(a)中的滑动调制类型，垂直维度上有四个输出，第一个输出为AMR任务的标量结果，后三个输出为MPE任务的标量结果。对于图3(b)中的交错调制类型，“多输出”维度上有三个输出，第三个输出为可变元素数量的向量格式，以适应“交错PRI值”的MPE结果，这需要在水平维度上有多个值槽。

3. 方法学

本节介绍所提出的基于LSTM-Transformer的深度JMRPE-MOMS网络，用于执行自动调制识别和参数估计任务。首先给出整体框架，然后详细描述框架中的三个组件，最后说明训练和测试过程的实现。

3.1 基于Transformer的JMRPE-MOMS框架

图4给出了所提出的基于LSTM-Transformer的JMRPE-MOMS用于JMRPE任务的整体框图。

该方法包含三个级联步骤：标签构建、数据投影和编码器-解码器堆栈，具体描述如下：首先，标签构建步骤包括序列化和量化方案，将雷达工作模式描述（如调制类型和调制参数）转换为可变长度的离散元素序列；其次，数据投影步骤挖掘输入雷达信号的深层时间序列特征，并将输入投影为更高维度的标签序列特征向量；最后，编码器-解码器堆栈完成全局特征提取和目标标签序列生成。以下各节详细描述这些处理步骤。

3.2 标签构建

本节提出一种标签构建方法，其核心思想是：如果神经网络提取到有效的特征，只需教会它如何解释这些特征。通过序列化和量化方案，将雷达工作模式描述（如调制类型和调制参数）表示为离散元素序列。

图5给出了包含序列化和量化方案的标签构建示例（以交错调制类型为例）。

3.2.1 序列化方案

为处理输入样本的可变数量输出（每个输出可包含可变数量的元素），将多个输出排列为序列格式。此外，标签序列中标签的顺序基于统计信号处理的基本原理以及前序标签对后续标签预测的指导作用设计，从而利用标签间的相关性提升性能。

本研究中使用的多输出多结构学习相关标签定义如下：

定义5：分类标签 $,ΩD}y_c \in \{\Omega_1, \Omega_2, \cdots, \Omega_D\}$ 指与输入脉冲序列对应的调制类型标签，其中 $Ωd\Omega_d$ （ $1 \leq d \leq D$ ）表示第 $d$ 种调制类型， $D$ 为调制类型总数。

定义6：参数标签 $y_e$ 指与输入脉冲序列对应的调制参数标签。根据其物理意义，该标签可具有多种结构，如标量格式、固定尺寸向量格式或可变尺寸向量格式。

定义7：符号标签 $y_s$ 指标签序列中具有标识功能的标签。开始符号 $⟨BOLS⟩\langle BOLS \rangle$ 和结束符号 $⟨EOLS⟩\langle EOLS \rangle$ 分别用于表示标签序列的开始和结束；分隔符 $⟨ITV⟩\langle ITV \rangle$ 用于分隔标签序列中的 $y_c$ 和 $y_e$ 。

定义8：标签序列 $y$ 指与输入脉冲序列 $x$ 对应的排列标签序列。标签序列的序列化利用上述三种标签进行，即：
$,ye,⟨EOLS⟩)y=(\langle BOLS \rangle, y_c, \langle ITV \rangle, y_e, \langle ITV \rangle, y_e, \cdots, y_e, \langle EOLS \rangle)$

定义9：元素指标签序列中的最小单元。分类标签、符号标签或标量形式的参数标签包含单个元素；向量形式的参数标签包含多个元素，且元素数量可固定或可变。因此，标签序列 $y$ 可在元素粒度上表示为：
$,yJ)y=(y_1, y_2, \cdots, y_J)$
其中 $J$ 为标签序列长度。

接下来，人工设计标签序列中不同标签的顺序，以利用这些标签之间可能存在的相关性。直观上，分类标签 $y_c$ 应置于参数标签 $y_e$ 之前，因为识别结果可用于辅助MPE任务。特定调制类型的参数标签顺序也应合理安排。以交错PRI为例，交错调制类型包含两个调制参数：交错位置数量和每个交错位置的PRI值。交错位置数量为标量形式，在回归任务中易于估计；每个交错位置的PRI值为向量，其尺寸等于交错位置数量，因此可通过交错位置数量的估计结果确定向量尺寸。考虑到交错位置数量本身易于估计，因此可降低误差可能性。

表2给出了本研究中考虑的五种PRI调制类型的标签序列化方式。

表2 五种PRI调制类型的标签序列序列化

类型	符号标签	分类标签	符号标签	参数标签	符号标签	参数标签	符号标签	参数标签	符号标签
恒定型	$⟨BOLS⟩\langle BOLS \rangle$	恒定型	$⟨ITV⟩\langle ITV \rangle$	初始值	$⟨EOLS⟩\langle EOLS \rangle$	-	-	-	-
滑动型	$⟨BOLS⟩\langle BOLS \rangle$	滑动型	$⟨ITV⟩\langle ITV \rangle$	初始值	$⟨ITV⟩\langle ITV \rangle$	结束值	$⟨ITV⟩\langle ITV \rangle$	步数	$⟨EOLS⟩\langle EOLS \rangle$
交错型	$⟨BOLS⟩\langle BOLS \rangle$	交错型	$⟨ITV⟩\langle ITV \rangle$	位置数量	$⟨ITV⟩\langle ITV \rangle$	交错值 $(v)$ *	$⟨EOLS⟩\langle EOLS \rangle$	-	-
正弦型	$⟨BOLS⟩\langle BOLS \rangle$	正弦型	$⟨ITV⟩\langle ITV \rangle$	中心值	$⟨ITV⟩\langle ITV \rangle$	幅度	$⟨ITV⟩\langle ITV \rangle$	频率	$⟨EOLS⟩\langle EOLS \rangle$
抖动型	$⟨BOLS⟩\langle BOLS \rangle$	抖动型	$⟨ITV⟩\langle ITV \rangle$	均值	$⟨ITV⟩\langle ITV \rangle$	方差	$⟨EOLS⟩\langle EOLS \rangle$	-	-

注： $(v)$ 表示向量格式输出标签。

3.2.2 量化方案

量化方案将分类标签、参数标签和符号标签的多种数据量化为数值格式。首先，参数标签本身是连续的，根据量化间隔 $δ\delta$ 进行量化。量化下界设为0，量化上界 $B$ 基于所有参数标签的最大可能值设定。因此，范围 $[0, B]$ 内的连续标签值可相对于量化间隔 $δ\delta$ 进行线性量化，即 $yquan=⌊ycont/δ⌋y_{quan}=\lfloor y_{cont}/\delta \rfloor$ ，其中 $y_{cont}$ 为初始参数标签。下标 $_{cont}$ 和 $_{quan}$ 分别表示连续版本和量化版本， $⌊α⌋\lfloor \alpha \rfloor$ 表示不大于 $α\alpha$ 的最大整数。量化后的连续值由范围 $\lfloor B/\delta \rfloor]$ 内的数字表示。若 $δ\delta$ 足够小，量化误差是可接受的。

随后，将分类标签和符号标签也量化为离散值。对于 $D$ 种调制类型 $,ΩD}\{\Omega_1, \Omega_2, \cdots, \Omega_D\}$ ，对应的分类标签表示为离散值 $,⌊B/δ⌋+D}\{\lfloor B/\delta \rfloor+1, \lfloor B/\delta \rfloor+2, \cdots, \lfloor B/\delta \rfloor+D\}$ 。类似地，符号标签 $⟨BOLS⟩\langle BOLS \rangle$ 、 $⟨EOLS⟩\langle EOLS \rangle$ 和 $⟨ITV⟩\langle ITV \rangle$ 分别表示为 $⌊B/δ⌋+D+1\lfloor B/\delta \rfloor+D+1$ 、 $⌊B/δ⌋+D+2\lfloor B/\delta \rfloor+D+2$ 和 $⌊B/δ⌋+D+3\lfloor B/\delta \rfloor+D+3$ 。通过量化，将多种数据类型的标签序列转换为离散数值向量。标签序列中的每个离散值为一个元素，且每个元素属于词汇表 $,⌊B/δ⌋+D+3}\sum_{label}=\{0, 1, \cdots, \lfloor B/\delta \rfloor+D+3\}$ 。

3.3 数据投影

由于输入信号是连续且有序的，直接将传统Transformer应用于雷达信号是不可行的。本文设计了用于输入信号序列的LSTM堆栈和用于标签序列的嵌入层，如图4所示。

3.3.1 雷达信号的LSTM堆栈

在编码器之前设计LSTM堆栈用于时间序列表征和投影。添加的LSTM替代了传统Transformer架构中的数字编码、嵌入和位置编码。这种替代的合理性可从以下两方面进一步解释：（1）传统Transformer缺乏建模序列局部结构的必要组件，严重依赖位置嵌入进行时间建模；而LSTM可细化每个位置的表征，具有更强的序列局部结构建模能力。（2）传统Transformer中的数字编码过程会导致量化误差，而LSTM可从原始输入数据中提取序列特征。

设具有 $T$ 个时间步的初始PRI信号为 $\in \mathbb{R}^{T×1}$ ，LSTM堆栈将初始输入映射为特征矩阵 $Xproject∈RT×dmodelX_{project} \in \mathbb{R}^{T×d_{model}}$ ，随后将 $X_{project}$ 输入编码器-解码器堆栈。LSTM堆栈与Transformer一起训练。

3.3.2 标签序列的嵌入

对标签序列采用嵌入和位置编码。在嵌入过程中，将量化向量嵌入到维度为 $J×d_{model}$ 的矩阵中：
$Xemb=x⋅WEX_{emb} = x \cdot W^E$
其中 $WE∈R1×dmodelW^E \in \mathbb{R}^{1×d_{model}}$ 为可学习的权重矩阵。

然后，将位置编码 $P o s$ 添加到嵌入向量中，以保留脉冲序列中脉冲的相对或绝对位置，即 $X_{project}=X_{emb}+Pos$ 。采用不同频率的正弦和余弦函数进行位置编码：
$Pos(t,2i)=sin(j100002i/dmodel)Pos_{(t, 2i)} = sin\left(\frac{j}{10000^{2i/d_{model}}}\right)$
$Pos(t,2i+1)=cos(j100002i/dmodel)Pos_{(t, 2i+1)} = cos\left(\frac{j}{10000^{2i/d_{model}}}\right)$
其中 $j$ 为 $X_{emb}$ 中的时间步（行索引）， $2 i$ 、 $2 i + 1$ （ $\cdots, \frac{d_{model}}{2}-1$ ）表示 $X_{emb}$ 的列索引。因此，位置编码的每一行对应一个正弦曲线，包含相对位置信息。

3.4 编码器-解码器堆栈

编码器-解码器堆栈可建模全局架构并生成可变长度的目标序列。编码器组件是编码器层的堆栈，将输入 $Xproject∈RT×dmodelX_{project} \in \mathbb{R}^{T×d_{model}}$ 映射为连续表征序列 $,zT}Z=\{z_1, \cdots, z_T\}$ ；解码器组件是解码器层的堆栈，将序列 $Z$ 输入解码器，然后逐个元素生成标签输出序列 $y^={y^1,⋯ ,y^J}\hat{y}=\{\hat{y}_1, \cdots, \hat{y}_J\}$ 。在每个输出步骤中，模型进行自回归，预测当前元素时将先前预测的元素作为附加输入，即 $y^m=arg⁡maxym∈∑labelf(ym∣y1,y2,⋯ ,ym−1,x)\hat{y}_m=\underset{y_m \in \sum_{label}}{\arg max} f(y_m | y_1, y_2, \cdots, y_{m-1}, x)$ 。

编码器和解码器均包含特定的子层，包括堆叠自注意力层和逐点全连接层。本节其余部分详细描述编码器和解码器堆栈。

3.4.1 编码器

编码器堆栈包含多个结构相同的级联编码器模块，如图6(a)所示。每个编码器模块包含两个子层：1）多头自注意力层；2）逐位置全连接层。在每个子层周围采用残差连接，随后进行层归一化操作。

（1）自注意力层
编码器输入 $xe∈R1×dmodelx_e \in \mathbb{R}^{1×d_{model}}$ 为 $X_{project}$ 的第 $e$ 行向量，首先流经自注意力层。第一步基于输入向量 $x_e$ 创建查询向量 $\in \mathbb{R}^{1×d_q}$ 、键向量 $\in \mathbb{R}^{1×d_k}$ 和值向量 $\in \mathbb{R}^{1×d_v}$ 。这些向量通过将 $x_e$ 与训练过程中学习的三个投影矩阵 $WQ∈Rdmodel×dqW^Q \in \mathbb{R}^{d_{model}×d_q}$ 、 $WK∈Rdmodel×dkW^K \in \mathbb{R}^{d_{model}×d_k}$ 和 $WV∈Rdmodel×dvW^V \in \mathbb{R}^{d_{model}×d_v}$ 相乘得到，其中 $d_q=d_k=d_v$ ：
$x_e \cdot W^Q$
$x_e \cdot W^K$
$x_e \cdot W^V$

第二步计算得分 $s$ ，该得分决定了编码当前时间步时对输入序列其他时间步的关注程度。通过查询向量与待评分元素的键向量的点积计算得分：
$sij=qi⋅kjTs_{ij} = q_i \cdot k_j^T$

第三步将得分除以 $dk\sqrt{d_k}$ 进行归一化，并通过softmax层转换为和为1的权重：
$sij′=expsijdk∑j=1nexpsijdks_{ij}' = \frac{exp \frac{s_{ij}}{\sqrt{d_k}}}{\sum_{j=1}^{n} exp \frac{s_{ij}}{\sqrt{d_k}}}$

第四步将每个值向量 $v_i$ 与softmax得分 $s_{ij}'$ 相乘，并对加权值向量求和。其核心思想是保留需要关注的元素值，抑制无关元素，从而得到输入 $x_e^i$ 的自注意力输出 $z_i$ ：
$zi=∑j=1nsij′⋅viz_i = \sum_{j=1}^{n} s_{ij}' \cdot v_i$

为加快处理速度，采用矩阵形式进行计算：
$softmax\left(\frac{Q K^T}{\sqrt{d_k}}\right) V$
其中 $,qt)Q=(q_1, q_2, \cdots, q_t)$ 、 $,kt)K=(k_1, k_2, \cdots, k_t)$ 和 $,vt)V=(v_1, v_2, \cdots, v_t)$ 。

通过添加多头注意力机制进一步优化自注意力，该机制允许模型在不同时间步关注输入的不同表征子空间。多头注意力通过 $H$ 个学习投影 $w_h^Q$ 、 $w_h^K$ 和 $w_h^V$ （ $1 \leq h \leq H$ ）分别对查询向量、键向量和值向量进行线性投影。每组 ${w_h^Q, w_h^K, w_h^V\}$ 随机初始化并训练。对这些 $H$ 个投影后的查询、键和值并行执行上述注意力函数，将注意力头的输出连接起来并再次投影，得到最终结果：
$,ZH)WOZ_{multihead} = Concat(Z_1, \cdots, Z_H) W^O$
其中投影矩阵 $WO∈Rhdv×dmodelW^O \in \mathbb{R}^{h d_v ×d_{model}}$ 。这些多个注意力头独立训练，类似于卷积神经网络中的多个特征图，每个特征图专注于整个特征空间的特定子空间。

（2）全连接前馈网络
随后，注意力子层的输出流入全连接（FC）网络。该网络在每个位置独立且相同地应用，由两个线性变换和中间的ReLU激活函数组成，表示为：
$FC(x) = max(0, x W_1 + b_1) W_2 + b_2$

全连接同时计算每个时间步，支持更高程度的并行化。

最后，对每个注意力层和FC层采用残差连接和层归一化。每个子层的输出经过 $L a y e r N o r m (x + S u b l a y e r (x))$ 处理，其中 $S u b l a y e r (x)$ 和 $L a y e r N o r m (x)$ 分别表示对应子层实现的函数和层归一化函数。

3.4.2 解码器

对于常见的编码器-解码器架构，解码器的结构通常与编码器相同，但在Transformer架构中两者存在一些差异，如图6(b)所示。每个解码器模块中设计了一个额外的子层，称为编码器-解码器注意力层。该层对编码器堆栈的输出和自注意力层的输出执行多头注意力。与编码器类似，解码器模块的三个子层均采用残差连接和层归一化。最后一个解码器层的输出输入softmax函数，将解码器输出转换为词汇表 $∑label\sum_{label}$ 上的预测概率。

在训练阶段，解码器层的输入包括上下文特征序列 $Z$ 和真实标签序列 $y$ ；在测试阶段，解码器的输入包括 $Z$ 以及当前时间步 $j$ 之前的所有预测标签 $y^1j−1=(y^1,⋯ ,y^j−1)\hat{y}_1^{j-1}=(\hat{y}_1, \cdots, \hat{y}_{j-1})$ 。此外，与编码器处理输入信号的所有时间步不同，自注意力层仅允许处理 $y$ 或 $y^\hat{y}$ 的早期时间步，确保时间步 $j$ 的预测仅依赖于时间步 $j$ 之前的已知标签。在训练阶段，通过屏蔽自注意力计算中 $y$ 的未来时间步（即 $\geq j$ ）来实现这一操作，将未来时间步的元素设为 $- i n f$ 。

3.5 模型训练与测试

基于3.2.2节描述的量化方案，标签序列中的每个元素属于标签词汇表 $∑label\sum_{label}$ 。执行JMRPE任务时，softmax层将解码器输出转换为当前元素的预测概率。然后模型使用argmax操作从 $∑label\sum_{label}$ 中选择预测概率最高的元素。采用教师强制机制进行模型训练，该机制源于最大似然准则。训练过程中，模型在时间步 $j$ 接收时间步 $j$ 之前的真实标签作为附加输入。训练过程中的条件最大似然准则为：
$p^=P(y∣x)=∏j=1JP(yj∣y1j−1,x)\hat{p} = P(y | x) = \prod_{j=1}^{J} P(y_j | y_1^{j-1}, x)$

模型训练的目标是最小化以下损失函数：
$Loss=−1N∑i=1N1Ji∑j=1Jiyijln(p^ij)Loss = -\frac{1}{N} \sum_{i=1}^{N} \frac{1}{J_i} \sum_{j=1}^{J_i} y_{ij} ln(\hat{p}_{ij})$
其中 $N$ 和 $J_i$ 分别表示训练样本数量和第 $i$ 个样本的标签序列元素数量， $y_{ij}$ 为目标元素， $p^ij\hat{p}_{ij}$ 为预测概率。

在测试阶段，模型旨在找到最可能的 $y^\hat{y}$ ：
$y^=argmaxy∈∑labelP(y∣x)\hat{y} = \underset{y \in \sum_{label}}{arg max} P(y | x)$
$y^j=argmaxyj∈∑label∏j=1JP(yj∣y^1j−1,x)\hat{y}_j = \underset{y_j \in \sum_{label}}{arg max} \prod_{j=1}^{J} P(y_j | \hat{y}_1^{j-1}, x)$

4. 仿真

通过基于仅由PRI定义的工作模式进行综合仿真，验证所提方法的有效性和优越性。4.1节描述仿真设计，包括数据集、评估指标和基线方法；4.2节和4.3节呈现仿真结果及分析。

4.1 仿真设计

4.1.1 数据集描述

本研究考虑3.2.1节描述的五种PRI调制类型，包括恒定型、交错型、抖动型、滑动型和正弦型。表3给出了五种调制类型的调制参数设置。

表3 五种PRI调制类型的调制参数设置

调制类型	调制参数
恒定型	初始值（μs）：U[10,100]*	-	-
滑动型	初始值（μs）：U[5,75]	步数：U[3,8]	步长值（μs）：U[5,15]
交错型	交错位置数量：U[3,10]	交错值范围（μs）：U[10,100]	-
正弦型	中心值（μs）：U[10,100]	调制幅度（%）：U[5,20]	频率：U[50,100]
抖动型	均值（μs）：U[10,100]	方差（%）：U[5,20]	-

注： $U [a, b]$ 表示从 $a$ 到 $b$ 的整数均匀采样。

仿真中使用六类数据集，记为 $D_i$ （ $1 \leq i \leq 6$ ）。第一类数据集（ $D_1$ ）用于评估所提方法在数据样本长度变化时的性能，包含10个子数据集，信号长度（即脉冲数量）范围为[50, 75, 100, 125, 150, 200, 250, 300, 350, 400]，每个子数据集包含40000个数据样本。第二类数据集（ $D_2$ ）用于检验数据集大小对模型训练的影响，包含10个子数据集，样本数量不同，最大样本数为48000，采用部分样本进行训练，训练样本数量从4000以4000为步长增加到48000， $D_2$ 中数据样本长度为400。

其他四类数据集 $D_3-D_6$ 用于评估四种非理想条件下的性能，包括测量噪声、脉冲缺失、虚假脉冲以及三种单一非理想条件的混合场景。这些非理想数据集基于 $D_2$ 中包含40000个样本的子数据集生成。 $D_3$ 考虑零均值、方差为 $σ2\sigma^2$ 的高斯测量噪声（ $σ\sigma$ 单位为μs），方差从0以0.5为步长增加到5。考虑到现代电子侦察系统的测量误差小于1μs，此处的仿真设置实际上更具挑战性。 $D_4$ 和 $D_5$ 分别考虑脉冲缺失和虚假脉冲，每个数据集包含10个子数据集，缺失和虚假脉冲的比例从0%以5%为步长增加到50%。需注意，生成缺失脉冲时，实际缺失脉冲比例为 $p^m=pm/(1+pm)\hat{p}_m=p_m/(1+p_m)$ ，其中 $p_m$ 为预定义比例；对于虚假脉冲，实际比例为 $p^s=ps/(1−ps)\hat{p}_s=p_s/(1-p_s)$ 。 $D_6$ 定义七种混合非理想条件的仿真场景，如表4所示。

表4 七种包含三种非理想条件的混合场景设置

场景	噪声方差（μs²）	缺失脉冲比例（%）	虚假脉冲比例（%）
1	0	0	0
2	0.5	5	5
3	1	10	10
4	1.5	15	15
5	2	20	20
6	2.5	25	25
7	3	30	30

注：MP表示缺失脉冲，SP表示虚假脉冲。

4.1.2 基线方法

关于雷达信号联合自动识别和参数估计的研究较少，且现有估计方法仅考虑标量输出或固定长度向量输出。为展示所提方法的优越性，采用或修改以下两种先前用于雷达信号的基线方法进行比较：

基于LSTM的编码器-解码器（LSTM-ED）：这是一种具有编码器-解码器架构的多任务LSTM网络。为适应本研究中的MOMS任务，对其进行修改用于JMRPE，采用本文提出的相同标签序列设置和数据投影方法。
基于直方图的方法（Hist）：这是传统的脉冲间调制参数估计方法。为使用该方法，仿真中假设测试样本的调制类型已知或可通过监督分类器轻松识别。

4.1.3 评估指标

为便于比较和分析，分别为AMR和MPE任务定义两类指标。

AMR任务定义总体准确率和标签准确率来评估调制识别性能：

总体准确率（ $Acc_{total}$ ）：表示正确分类的样本比例，即测试样本的预测分类标签与真实标签完全匹配的比例，定义为：
$Acctotal=1N∑i=1N∥Y^i=Yi∥Acc_{total} = \frac{1}{N} \sum_{i=1}^{N} \|\hat{Y}_i = Y_i\|$
$∥Y^i=Yi∥={1,若Y^i=Yi0,否则\|\hat{Y}_i = Y_i\| = \begin{cases}1, & 若\hat{Y}_i = Y_i \\ 0, & 否则 \end{cases}$
其中 $N$ 为测试样本数量， $Y^i\hat{Y}_i$ 为预测标签， $Y_i$ 为第 $i$ 个样本的真实标签。
标签准确率（ $Acc_{label}$ ）：评估第 $k$ 种调制类型的正确分类样本比例，定义为：
$Acclabel=1Nk∑i=1Nk∥Y^ik=Yik∥Acc_{label} = \frac{1}{N_k} \sum_{i=1}^{N_k} \|\hat{Y}_{ik} = Y_{ik}\|$
其中 $N_k$ 为第 $k$ 种调制类型的样本数量， $Y^ik\hat{Y}_{ik}$ 和 $Y_{ik}$ 分别为第 $k$ 种调制类型第 $i$ 个样本的预测标签和真实标签。

MPE任务采用总体均方误差（MSE）和标签MSE指标评估参数估计性能：

总体MSE（ $MSE_{total}$ ）：计算正确分类样本的MSE，因为编码器-解码器结构中标签序列以自回归方式输出。若分类标签错误，网络将给出错误预测类别对应的参数估计值，此时MPE结果无意义，且预测参数标签的数量、结构和物理意义与真实参数标签不同，无法直接计算错误分类样本的MSE。由于准确率和MSE分别评估网络性能，且准确率已衡量分类错误的影响，MSE不应考虑分类错误的影响。 $MSE_{total}$ 定义为：
$MSEtotal=1N˙⋅1Ji∑i=1N∑j=1Ji(y^ij−y˙ij)2MSE_{total} = \frac{1}{\dot{N}} \cdot \frac{1}{J_i} \sum_{i=1}^{N} \sum_{j=1}^{J_i} (\hat{y}_{ij} - \dot{y}_{ij})^2$
$y˙ij=argmin((y^ij−yij)2),j=1,⋯ ,Ji\dot{y}_{ij} = arg min((\hat{y}_{ij} - y_{ij})^2), j=1, \cdots, J_i$
其中 $N˙\dot{N}$ 为正确分类的样本数量， $J_i$ 为第 $i$ 个样本的元素数量， $y^ij\hat{y}_{ij}$ 为第 $i$ 个样本的第 $j$ 个估计元素， $y_{ij}$ 为第 $i$ 个样本的第 $j$ 个真实元素， $y˙ij\dot{y}_{ij}$ 为第 $i$ 个样本第 $j$ 个估计元素的最近真实元素。
标签MSE（ $MSE_{label}$ ）：评估第 $k$ 种调制类型正确分类样本的MSE，定义为：
$MSElabel=1N˙k⋅1Ji∑i=1Nk∑j=1Ji(y^ijk−y˙ijk)2MSE_{label} = \frac{1}{\dot{N}_k} \cdot \frac{1}{J_i} \sum_{i=1}^{N_k} \sum_{j=1}^{J_i} (\hat{y}_{ij}^k - \dot{y}_{ij}^k)^2$
其中 $N˙k\dot{N}_k$ 为第 $k$ 种调制类型正确分类的样本数量， $J_i$ 为第 $i$ 个样本的元素数量， $y^ijk\hat{y}_{ij}^k$ 为第 $k$ 种调制类型第 $i$ 个样本的第 $j$ 个估计元素， $y˙ijk\dot{y}_{ij}^k$ 为第 $k$ 种调制类型第 $i$ 个样本第 $j$ 个估计元素的最近真实元素。

4.1.4 仿真实现

表5给出了所提方法的配置和训练设置。num_layers表示编码器和解码器的层数，num_heads表示多头注意力头的数量，d_ff表示前馈层中的单元数量。为避免过拟合，在残差连接和层归一化之前对每个子层的输出应用dropout。vocab_size表示词汇表中的元素数量，max_seq_len_de表示标签序列的最大长度。

表5 网络配置和训练设置

序号	参数名称	参数值
网络配置
1	num_layers	4
2	num_heads	8
3	d_model	128
4	LSTM_units	128
5	d_ff	512
6	dropout_rate	0.1
7	vocab_size	9009
8	max_seq_len_de	16
训练设置
1	Epoch	700
2	batch_size	128
3	Optimizer	Adam

采用Adam优化器，动量参数 $β1=0.9\beta_1=0.9$ 、 $β2=0.98\beta_2=0.98$ 和 $ε=10−9\varepsilon=10^{-9}$ 。为获得更好的训练效果，学习率随训练步骤变化：
$lrate=dmodel−0.5⋅min(stepnum−0.5,stepnum⋅warmup_steps−1.5)lrate = d_{model}^{-0.5} \cdot min(step_{num}^{-0.5}, step_{num} \cdot warmup\_steps^{-1.5})$

这意味着在前warmup_steps个训练步骤中，学习率线性增加，随后与步骤数 $step_{num}$ 的平方根成反比下降。本研究中，warmup_steps=4000。所提模型的编程环境为Python 3.7.3，深度学习库为Keras 2.2.4（基于TensorFlow 2.6.0）。

4.2 不同实现条件下的性能验证

如3.3节所述，本文提出标签构建方法以利用标签间的相关性提升性能，并设计LSTM-Transformer以减少量化误差和提取时序特征。本节评估LSTM-Transformer（LSTM-T）和传统基于嵌入的Transformer（Emb-T）的有效性和优越性；此外，提供无分类标签的LSTM-T结构（记为LSTM-T(non c-label)）的性能，以验证分类标签对参数标签的影响（无分类标签的标签序列构建意味着仅执行MPE任务）。

4.2.1 对不同信号长度的适应性

本节讨论JMRPE-MOMS对不同样本长度的适应性。Transformer广泛应用于神经机器翻译（NMT），其中输入序列通常较短（例如，句对句翻译任务中，源句和目标句通常不超过40个词），但雷达信号序列包含大量且可变数量的脉冲。与较短序列相比，较长的输入序列通常包含更多信息，需要更复杂的网络来提取信息。因此，利用数据集 $D_1$ 实验检验信号长度的影响。

图7(a)显示两种结构均实现了优异的AMR性能，总体准确率高于99%。有趣的是，LSTM-T的总体准确率与长度正相关，而Emb-T则相反。图7(b)中，LSTM-T和LSTM-T(non c-label)的总体MSE随样本长度增加而减小，但Emb-T的性能仍呈相反趋势。出现这一结果的原因是传统Transformer结构为NMT任务设计，尽管Transformer在一定程度上解决了长序列处理性能差的问题，但处理更长序列时仍存在局限性。Emb-T无法有效利用包含更多信息的较长序列，导致性能下降。此外，LSTM-T的MPE性能优于LSTM-T(non c-label)，验证了分类标签对后续MPE任务的指导作用。

4.2.2 训练数据量需求

本节利用数据集 $D_2$ 对所提方法所需的训练数据量进行定量分析，采用 $Acc_{total}$ 和 $MSE_{total}$ 进行定量评估，同时考察标签MSE（ $MSE_{label}$ ）以全面分析仿真结果。

图8显示，所有方法的性能均随训练样本数量增加而提升。对于Emb-T和LSTM-T，总体准确率分别从77.48%提升至99.74%和99.08%提升至99.88%，总体MSE分别从11.84降至0.42和10.47降至0.085。然而，当训练样本数量从4000增加到8000时，Emb-T结构的总体准确率从77.48%跃升至96.92%，而Emb-T结构的MSE在训练样本数量为40000时显著下降。

为更好地分析性能的突然下降，进行精细化仿真，训练数据样本数量从36000以800为步长增加到40000。结果显示，随着样本数量增加，MSE逐渐下降。为研究突然下降的具体原因，采用标签MSE指标。从图8©和8(d)可以看出，正弦调制类型的MSE是影响总体MSE的主要因素，通过增加训练样本可缓解性能下降。

结果表明，与Emb-T相比，LSTM-T结构需要更少的数据即可实现稳定且令人满意的性能。这是因为LSTM-T用LSTM层替代了输入信号的量化处理和嵌入层，LSTM层可接受原始信号，避免了连续值的量化误差，从而提升性能（尤其是MPE任务）。从图8(d)可以看出，Emb-T对具有连续调制值的抖动和正弦调制的性能优于其他调制类型；而图8©中LSTM-T提升了抖动和正弦调制的性能。此外，与Emb-T中基于全连接层的嵌入层相比，LSTM层具有更强的时序特征提取能力。

此外，图8(b)显示了使用LSTM-T结构的无分类标签标签序列的结果。可以看出，该曲线趋势与LSTM-T相似，但MSE更大。当数据量在12000至35000范围内时，LSTM-T(non c-label)的MSE比LSTM-T大约0.5。MSE为0.5实际上是一个相对较大的值，因为绝对值误差已达到0.7（对应MSE为0.5）。LSTM-T(non c-label)相对较差的MPE性能进一步验证了分类标签对MPE任务的指导作用，这与4.2.1节的结论一致。

4.2.3 标签顺序的影响

本节考察标签设计顺序的影响，采用标签MSE呈现结果。

3.2.1节中，基于调制特征人工设计标签序列的顺序，以利用标签之间可能的相关性获得更好的性能（如表2所示）。为验证3.2.1节所示设计顺序的最优性，改变正弦、抖动和交错调制的标签顺序，比较设计顺序与改变后顺序的性能。改变后的标签顺序如表6所示。例如，在抖动调制的标签序列中，强制模型先估计方差，再估计均值。

表6 改变后的标签顺序设置

类型	分类标签	参数标签
正弦型	正弦型	频率	幅度	中心值
抖动型	抖动型	方差	均值	-
交错型	交错型	交错值 $(v)$	位置数量	-

注：Cate表示分类标签，为简洁起见省略符号标签。

图9比较了设计顺序和改变后顺序的性能。在数据样本量为50%、75%和100%的情况下，三种调制类型的最优设计顺序的MSE值均显著小于改变后顺序的MSE值，交错调制类型的性能差距尤为明显。综上，有必要基于不同标签之间可能的相关性或数学原理设计标签序列，验证了本研究中设计顺序的最优性。

4.3 典型非理想环境下的性能分析

实际电磁环境相当复杂，因此比较分析所提方法和两种基线方法在非理想条件下的性能。由于直方图方法仅适用于恒定型、滑动型和交错型调制类型，采用标签MSE评估性能。

使用数据集 $D_3-D_6$ ，分别包含11、11、11和7级非理想条件。每个非理想级别包含特定数据集类别的40000个样本。使用数据集类别中所有非理想级别的样本进行模型训练，然后在每个非理想级别下测试训练后的模型。

图10显示AMR结果。在所有四种非理想条件下，用于AMR任务的LSTM-T显著优于基线方法。图10(b)和10©显示，LSTM-T的总体准确率几乎不受缺失和虚假脉冲比例的影响，但LSTM-ED的总体准确率随条件恶化而下降。图10(a)和10(d)中，随着条件恶化，LSTM-T和LSTM-ED的总体准确率均下降，但LSTM-T的性能始终优于LSTM-ED。

此外，图11显示所提方法在两种典型噪声条件下的识别混淆矩阵。对于噪声方差为0.5的情况，所提方法对恒定型、滑动型、正弦型和交错型信号的识别性能优异，但9.3%的抖动调制样本被误分类为恒定调制类型。对于噪声方差为5的情况，观察到相反的现象：抖动调制样本的识别准确率提高，但16.8%的恒定调制样本被误分类为抖动调制类型。即噪声污染的恒定调制样本与高斯抖动调制样本具有相同的分布，且随着噪声方差增加，两种调制类型之间的混淆程度加剧。

图12显示四种非理想条件下的MPE性能。可以看出，LSTM-T的性能显著优于基线方法。图12(a)-12©显示，LSTM-T的总体MSE虽有波动，但始终小于0.5，且显著小于LSTM-ED的总体MSE。有趣的是，在单一非理想条件恶化时，总体MSE并未表现出明显的增加趋势，这是因为仅计算正确分类样本的MSE，总体准确率已考虑非理想情况导致的性能下降，进一步验证了分类标签对参数标签的指导作用。如图12(d)所示，面对混合非理想条件时，总体MSE随条件恶化自然增加，但LSTM-T仍表现出优于基线方法的性能，在各种复杂非理想条件下更具鲁棒性。

需注意，4.2节中使用的训练数据集 $D_1$ 包含40000个样本，而非理想条件下的训练数据集 $D_3-D_6$ 由7或11级子数据集组成，每个级别的子数据集包含40000个样本，此处的训练样本数量是先前仿真的7至11倍（例如，数据集 $D_3$ 包含 $40000 \times 11 = 440000$ 个样本）。因此，与4.2节所示性能相比，LSTM-T在非理想条件下的性能有所提升，这一现象再次证明了LSTM-T从大量数据中学习的能力。

最后，图13呈现了LSTM-T和基线方法对恒定型、滑动型和交错型调制类型的性能。对于恒定调制，三种方法在四种非理想条件下均表现良好；但对于滑动型和交错型调制类型，LSTM-T的性能优于基线方法。即使在理想条件下，交错调制类型的最小标签MSE为2.48。直方图方法在轻微非理想条件下表现良好，但随着条件恶化，性能急剧下降，尤其是在脉冲缺失条件下。

4.4 时间复杂度分析

基于深度学习的信号处理方法面临的一个问题是时间复杂度。Transformer中每个自注意力层的时间复杂度为 $O(T^2d)$ ，而每个LSTM层的时间复杂度为 $O(Td^2)$ ，其中 $T$ 为序列长度， $d$ 为表征维度。所提方法的直接时间复杂度高于传统基于LSTM的网络。然而，自注意力层和LSTM层的最小顺序操作数分别为 $O (1)$ 和 $O (T)$ 。LSTM沿输入序列的时间步进行计算，隐藏状态 $h_t$ 是前一隐藏状态 $h_{t-1}$ 和时间步 $t$ 输入值的函数。LSTM固有的顺序特性阻碍了并行化，而所提方法可通过并行计算直接加速。本节比较所提方法和LSTM-ED在4.1.1节定义的四种非理想条件下的测试时间。

图14显示LSTM-T和LSTM-ED对500个测试样本的测试时间，执行环境为Intel Xeon 5218 CPU和NVIDIA GeForce RTX 3090 GPU。尽管LSTM-T也包含用于特征提取的LSTM层，但所提方法的测试时间仍显著小于LSTM-ED，这是因为LSTM-T仅将LSTM层用作数据投影，而LSTM-ED包含更多的LSTM层。Transformer支持更高程度的并行化，且多头注意力由多个并行运行的注意力层组成。显著较低的测试时间验证了所提方法在实际应用中的优越性。

5. 结论

本文提出一种基于LSTM-Transformer的多输出多结构学习框架（JMRPE-MOMS），用于雷达信号的自动调制识别和参数估计。标签构建和LSTM-Transformer架构是所设计方法的核心组件。精心设计的标签序列使实现可变数量、可变结构的输出成为可能，同时能够利用不同标签之间的相关性提升性能。设计的LSTM-Transformer网络可减少传统Transformer架构导致的量化损失，并有效挖掘时序特征以提升性能。此外，Transformer的高并行化特性显著降低了测试时间。综合仿真结果验证了所提方法的有效性和优越性。

本文首次基于深度学习的JMRPE-MOMS网络研究细粒度雷达工作模式识别。未来有几个研究方向：首先，进一步细化由多个具有灵活调制类型和优化调制参数的定义参数所定义的雷达工作模式；其次，研究雷达波形的脉冲内自动调制识别和参数估计，尤其是在低信噪比条件下和低截获概率波形中；最后，将基于Transformer的多输出多结构架构应用于雷达和通信领域的其他应用具有重要意义。