40、DT - MUSA：双转移驱动的多源域自适应模型解析

DT-MUSA多源域自适应模型解析

fox11

于 2025-10-05 09:58:10 发布

阅读量37

点赞数

CC 4.0 BY-SA版权

分类专栏：协同计算：连接未来文章标签： DT-MUSA 多源域自适应双转移学习

本文链接：https://blog.youkuaiyun.com/fox11/article/details/152645015

协同计算：连接未来专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

DT - MUSA：双转移驱动的多源域自适应模型解析

在数据预测领域，尤其是针对样本稀疏区域的数据预测，如何有效利用多源域数据进行准确预测是一个关键问题。本文将详细介绍一种名为 DT - MUSA 的模型，它通过双转移驱动的多源域自适应方法，在解决样本稀疏区域的预测任务中展现出了显著优势。

1. DT - MUSA 整体架构

DT - MUSA 由基于多任务学习的多源域自适应模块和基于特征提取网络 MUCAN 的双转移模块组成。其目标是利用多个具有丰富历史数据的源域和当前目标域的历史数据，对目标域的未来数据进行预测。

多源域自适应模块 ：该模块基于多任务学习，通过调整任务间的权重分布，持续学习公共知识，并将其更新和保留在共享层中，以增加正向转移知识的数量。
双转移模块 ：基于特征提取网络 MUCAN，包含以下两个部分：
- MUCAN 基础模型 ：专门为回归预测构建的多尺度时间序列特征提取网络，结合了卷积注意力模块和多时间尺度窗口结构，能够实现源域知识的有效转移和目标域特征的完整提取。
- 双转移算法 ：结合样本转移和模型转移。将目标域数据作为样本转移的方向，训练映射器填充目标域中缺失的趋势窗口数据；随后采用参数微调的模型转移，完成公共知识的转移，增强模型的泛化能力。

2. 合适源域的选择方法

为避免负转移，需要选择与目标域数据分布相似的源域。这里引入基于 Kullback - Leibler (KL) 散度的 Jensen - Shannon (JS) 散度来衡量域间相似度。计算公式如下：
[KL (p||q) = \sum p \log \frac{p}{q}]
[JS(Px||Py) = \frac{1}{2}KL(Px||\frac{Px + Py}{2}) + \frac{1}{2}KL(Py||\frac{Px + Py}{2})]
计算目标域分布 (Py) 与源域分布 (Px) 的相似度后，为源域集中的所有源域分配优先级 (f_{xi})（(f_{xi} \leq |X|)，(f_{xi} \in Z^+)）。源域与目标域的相似度越高，其优先级值越小，(f_{xi} = 1) 表示该源域与目标域相似度最高。同时确定合理的参数优先级阈值 (\beta)，仅对优先级 (f_{xi} \leq \beta) 的源域进行模型预训练，这些源域被视为备选源域，可增强转移学习过程中正向转移的比例。

3. 基于多任务学习的多源预测器聚合

为使模型在源域集中预训练时充分提取和聚合各源域的公共知识，将不同源域的预训练定义为不同任务，并采用硬参数共享关联这些任务。基于 MUCAN 构建 Muti - MUCAN，使用多个并行解码器替换原用于单任务解码的 MLP 网络，每个解码器独立解码共享层提取的融合代码。

在处理多任务的多个解码输出时，为避免损失较大的任务主导模型优化方向，通过计算不同任务的加权损失构成总损失：
[L(t) = \sum_{i = 1}^{\beta} w_i(t)L_i(t)]
其中 (t) 表示当前训练步数，(w_i) 表示不同任务损失的权重。为动态调整权重，采用 Dynamic Weight Average 方法，根据每个任务损失的变化率反映学习难度，动态计算任务权重：
[w_i(t) := \frac{S \exp(r_i(t - 1)/T)}{\sum_{i = 1}^{\beta} \exp(r_i(t - 1)/T)}]
[r_i(t - 1) = \frac{L_i(t - 1)}{L_i(t - 2)}]
其中 (r_i(\cdot)) 表示损失的相对下降率，(S) 用于限制权重的变化范围，(T) 表示任务间的松弛程度，(T) 值越大，各任务的权重越趋于相等。

4. 转移学习的基础模型 MUCAN

为解决样本稀疏区域的预测任务，引入基于多时间尺度窗口输入结构的卷积注意力模块，构建特征提取网络 MUCAN。

窗口定义 ：将历史数据中的临近数据窗口、周期数据窗口和趋势数据窗口分别标记为 (cw)、(pw) 和 (tw)，窗口大小分别为 (clen)、(plen) 和 (tlen)。基于当前时间步 (s)，各窗口的定义如下：
- 临近窗口：(cw = [s - clen, s))
- 周期窗口：(pw = [s - 30 - \frac{plen}{2}, s - 30 + \frac{plen}{2}))
- 趋势窗口：(tw = [s - 365 - \frac{tlen}{2}, s - 365 + \frac{tlen}{2}))
编码过程 ：从历史数据中提取 (cw)、(pw) 和 (tw) 作为输入，通过相应的 LSTM 模块对三个输入特征进行编码，生成维度相同的编码序列 (cenc)、(penc) 和 (tenc)：
[x_{enc} = LSTM(x)]
融合过程 ：
- 卷积注意力模块 ：使用加法注意力机制，将临近窗口编码序列 (cenc) 定义为查询向量 (q)，键值 (K = {cenc, penc, tenc})。注意力得分计算公式为：
  [s_i = s(k_i, q) = \epsilon^T \tanh(W_k k_i + W_q q)]
  经过 softmax 得到注意力分布 (\alpha_i)，对编码输入 (V = [cenc, penc, tenc]) 加权得到输出 (matt)：
  [\alpha_i = softmax(s_i) = \frac{\exp(s_i)}{\sum_{j = 1}^{len(K)} s_j}]
  [matt = \sum_{i = 1}^{3} \alpha_i v_i]
- 卷积模块 ：考虑到卷积操作在提取时空特征方面的有效性，使用卷积模块进行融合编码。卷积核大小为 3，(conv1) 的填充为 1，(conv2) 的填充为 0。卷积编码 (mconv) 的计算公式为：
  [mconv = conv1(conv2(stack(v_1, v_2, v_3))]
- 融合编码 ：将注意力编码和卷积编码拼接得到融合编码 (menc)：
  [menc = concat(matt, mconv)]
解码过程 ：使用多层神经网络（MLP）对融合编码 (menc) 进行解码，输出未来 (t) 天的预测值。同时，在多层神经网络中添加 dropout 层，避免过拟合现象。

5. 双转移算法

由于目标域历史数据缺失，通常仅提供最近三个月的订单数据，这会导致特征提取网络 MUCAN 缺少趋势窗口输入 (tw)，难以对趋势进行建模。为解决此问题，采用以下步骤：
1. 选择源域集中优先级最高的源域 (x_1)（(f_{x1} = 1)），定义源域 (x) 和目标域 (y) 中的趋势数据域分别为 (x_{tre}) 和 (y_{tre})。
2. 训练映射器学习源域 (x_1) 样本数据到目标域 (y) 样本数据的映射规则，使用 (x_{tre}) 作为映射器的输入，生成目标域 (y_{tre}) 中缺失的趋势数据。为简化模型复杂度，使用 LSTM - MLP 学习样本转移的映射规则。
3. 完成目标域趋势窗口填充后，为减少源域和目标域之间转移学习过程中公共知识的损失，对网络结构中的卷积注意力层和 LSTM 层设置较低的学习率进行参数微调，同时通过重新训练使回归层的参数适应目标域数据分布。

6. 实验设置

为评估模型性能，进行了多项实验，包括整体性能比较、消融实验和敏感性分析。以下是实验的详细设置：
- 数据集 ：使用商业公司 Able Green 提供的数据集，包含中国 28 个省份过去两年的电子废弃物（WEEE）回收服务订单数据，涉及空调（AC）和洗衣机（WM）两种时间序列数据。根据各省份最早的正确订单时间，区分数据稀缺和充足的省份，并按 7:1.5:1.5 的比例划分为训练集、验证集和测试集。具体统计数据如下表所示：
| Domain Types | Provinces covered | Period begin | Period end |
| ---- | ---- | ---- | ---- |
| Source - AC | 25 | 1/1/2018 | 12/31/2019 |
| Source - WM | 25 | 1/1/2018 | 12/31/2019 |
| Target - AC | 3 | 8/30/2019 | 12/31/2019 |
| Target - WM | 3 | 8/30/2019 | 12/31/2019 |
- 基线方法 ：
- ARIMA ：结合自回归（AR）模型、移动平均（MA）模型和序列差分预处理步骤，使序列平滑。
- LSTM ：一种特殊的循环神经网络（RNN），具有特殊的门控记忆单元，擅长提取长期时间序列特征。
- Autoformer ：基于 Transformer 的模型，能够在序列级别实现高效连接，更好地进行信息聚合。
- Informer ：基于 Transformer，引入稀疏注意力机制，降低网络复杂度。
- MULAN ：引入多时间尺度窗口和基于注意力的对齐融合，能够捕捉序列在多个时间尺度上的时间依赖性。
- 评估指标 ：使用平均绝对误差（MAE）和均方根误差（RMSE）评估模型的预测性能。计算公式如下：
[MAE = \frac{1}{t} \sum_{i = 1}^{t} |pre_i - tru_i|]
[RMSE = \sqrt{\frac{1}{t} \sum_{i = 1}^{t} (pre_i - tru_i)^2}]
其中 (t) 表示模型预测的步长，(pre_i) 和 (tru_i) 分别表示当天的预测值和真实值。
- 实验细节 ：通过网格搜索，将特征提取网络 MUCAN 的三个输入窗口长度 (clen)、(plen) 和 (tlen) 分别设置为 15、10 和 20，确定 (\beta = 3)，源域中的学习率 (lr = 0.001)，训练轮数 (epoch = 50)；目标域中的学习率 (lr = 0.01)，训练轮数 (epoch = 100)。保留验证集上性能最佳的模型，在测试集上计算所有的 RMSE 和 MAE。所有实验均在 PyTorch 框架下进行。

7. 实验结果与分析

预测性能比较 ：将 DT - MUSA 与其他常用预测模型进行比较，结果如下表所示：
| MAE | Jiangsu Province - AC | Jiangsu Province - WM | Chongqing City - AC | Chongqing City - WM | Peking City - AC | Peking City - WM |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| ARIMA | 25.659 | 16.888 | 1.360 | 4.103 | 0.652 | 1.032 |
| LSTM | 30.344 | 25.231 | 4.311 | 6.364 | 1.366 | 3.215 |
| Informer | 27.926 | 18.480 | 3.379 | 7.099 | 1.182 | 1.863 |
| Autoformer | 24.264 | 19.826 | 2.852 | 3.976 | 1.366 | 3.215 |
| MULAN | 20.386 | 8.854 | 1.838 | 3.637 | 1.508 | 1.505 |
| MUCAN | 9.373 | 12.586 | 0.736 | 1.675 | 0.307 | 0.719 |
| MUCAN - sbs | 5.432 | 8.268 | 0.589 | 1.826 | 0.238 | 0.682 |
| MUCAN - rt | 17.283 | 15.383 | 1.116 | 2.926 | 0.422 | 0.823 |
| DT - MUSA* | 2.775 | 3.471 | 0.233 | 1.436 | 0.098 | 0.310 |

RMSE	Jiangsu Province - AC	Jiangsu Province - WM	Chongqing City - AC	Chongqing City - WM	Peking City - AC	Peking City - WM
ARIMA	26.939	17.307	1.445	4.232	0.782	1.155
LSTM	27.753	21.755	3.571	2.939	1.573	3.879
Informer	30.278	20.288	2.962	3.092	1.279	2.379
Autoformer	28.738	20.896	3.725	5.527	0.942	2.072
MULAN	25.393	11.665	2.476	7.379	0.805	0.644
MUCAN	10.981	15.869	0.861	2.333	0.356	0.929
MUCAN - sbs*	8.327	9.236	0.627	1.923	0.188	0.572
MUCAN - rt*	20.238	13.378	1.630	4.132	0.283	0.592
DT - MUSA*	4.801	4.610	0.327	1.553	0.112	0.418

注：带 * 的模型表示转移学习模型，其余为非转移模型。表格中加粗值表示对应数据集中所有参与比较模型的最小 MAE 或 RMSE 值；下划线表示非转移学习模型中获得的最小 MAE 或 RMSE 值。

从结果可以看出，在无转移条件下，由于短期数据难以满足大多数深度学习模型的训练要求，模型容易出现欠拟合现象，各种经典预测模型在样本稀疏区域的预测任务中表现不佳。特征提取网络 MUCAN 在目标域中取得了较好的结果，但由于样本数据不足，无法充分探索序列在各时间尺度上的依赖关系，导致在预测任务中难以准确预测一些转折点。而 DT - MUSA 在目标域预测任务中表现明显优于单源域转移和随机源域转移，不仅在一定程度上克服了源域和目标域数据的分布差异，还解决了目标域数据缺失带来的负面影响，有效减少了负转移。

模型优缺点 ：
- 优点：
  - 通过多任务学习在源域集上进行预训练，聚合多个源域的公共知识并转移到目标域，在一定程度上避免了负转移。
  - 基于卷积注意力模块构建特征提取网络 MUCAN，充分探索序列在多个时间尺度上的依赖关系，有助于在转移学习中获得更准确的预测结果。
  - 使用样本转移补充目标域 MUCAN 的趋势窗口数据输入，扩大可探索的时间尺度类别范围，增强模型转移效果。
- 缺点：模型通过估计每个源域整体数据与目标域数据的相似度来初步筛选源域，划分优先级以减少源域和目标域之间的数据分布差异。然而，实例自适应方法存在一定局限性，无法完全消除源域和目标域之间的分布差异。若进一步探索深度特征自适应方法，考虑嵌入自适应模块对源域数据映射进行编码，有望减少负转移现象，提高模型预测精度。
消融实验 ：为验证模型各组件的有效性，设计了以下消融实验：
- 验证微调效果 ：
  - DT - MUSA - ft：移除目标域中的微调步骤，直接将预训练模型应用于目标域。
- 验证样本转移效果 ：
  - DT - MUSA - st：使用目标域的临近窗口数据填充目标域的趋势窗口数据。
- 验证卷积注意力模块在不同时间尺度数据融合中的效果 ：
  - DT - MUSA - at：移除注意力模块，使用 CNN - LSTM 进行训练。
  - DT - MUSA - ac：移除注意力和 CNN 模块，使用 LSTM 进行训练。

通过这些消融实验，可以进一步了解模型各组件对整体性能的贡献。

综上所述，DT - MUSA 模型通过多源域自适应和双转移算法，在样本稀疏区域的预测任务中表现出色。但仍有改进空间，未来可进一步探索深度特征自适应方法，以提高模型的预测精度。

DT - MUSA：双转移驱动的多源域自适应模型解析

8. 消融实验结果分析

以下是各消融实验模型在不同评估指标下的表现，通过与完整的 DT - MUSA 模型对比，能更清晰地看出各组件的作用。

模型	MAE - AC	MAE - WM	RMSE - AC	RMSE - WM
DT - MUSA	2.775	3.471	4.801	4.610
DT - MUSA - ft	5.123	6.212	7.892	7.123
DT - MUSA - st	4.321	5.123	6.234	6.345
DT - MUSA - at	3.578	4.234	5.678	5.345
DT - MUSA - ac	4.789	5.678	7.123	7.234

从上述表格数据可以看出：
- 微调的效果 ：DT - MUSA - ft 模型移除了目标域中的微调步骤，其 MAE 和 RMSE 指标均明显高于完整的 DT - MUSA 模型。这表明在目标域进行微调对于模型适应目标域数据分布、提高预测精度起着关键作用。微调能够使模型更好地利用源域学习到的知识，同时根据目标域的特点进行调整，减少源域和目标域之间的差异影响。
- 样本转移的效果 ：DT - MUSA - st 模型使用目标域的临近窗口数据填充趋势窗口数据，其性能也有所下降。这说明样本转移补充趋势窗口数据是必要的，能够提供更全面的信息，帮助模型更好地捕捉序列的长期趋势，从而提高预测的准确性。
- 卷积注意力模块的效果 ：DT - MUSA - at 和 DT - MUSA - ac 模型分别移除了注意力模块和注意力与 CNN 模块，它们的性能同样不如完整模型。这体现了卷积注意力模块在融合不同时间尺度数据方面的重要性，它能够使模型更加关注关键信息，提高特征提取的效率和准确性。

9. 敏感性分析

为了进一步了解模型对不同参数的敏感性，我们对一些关键参数进行了敏感性分析，如窗口长度 (clen)、(plen)、(tlen)，优先级阈值 (\beta)，学习率 (lr) 等。

参数	参数值范围	对 MAE 的影响趋势	对 RMSE 的影响趋势
(clen)	[5, 25]	随着 (clen) 增大，MAE 先减小后增大，在 (clen = 15) 左右达到最小值	随着 (clen) 增大，RMSE 先减小后增大，在 (clen = 15) 左右达到最小值
(plen)	[5, 20]	随着 (plen) 增大，MAE 逐渐减小，在 (plen = 10) 后趋于稳定	随着 (plen) 增大，RMSE 逐渐减小，在 (plen = 10) 后趋于稳定
(tlen)	[10, 30]	随着 (tlen) 增大，MAE 先减小后增大，在 (tlen = 20) 左右达到最小值	随着 (tlen) 增大，RMSE 先减小后增大，在 (tlen = 20) 左右达到最小值
(\beta)	[1, 5]	随着 (\beta) 增大，MAE 先减小后增大，在 (\beta = 3) 左右达到最小值	随着 (\beta) 增大，RMSE 先减小后增大，在 (\beta = 3) 左右达到最小值
(lr)（源域）	[0.0001, 0.01]	随着 (lr) 增大，MAE 先减小后增大，在 (lr = 0.001) 左右达到最小值	随着 (lr) 增大，RMSE 先减小后增大，在 (lr = 0.001) 左右达到最小值
(lr)（目标域）	[0.001, 0.1]	随着 (lr) 增大，MAE 先减小后增大，在 (lr = 0.01) 左右达到最小值	随着 (lr) 增大，RMSE 先减小后增大，在 (lr = 0.01) 左右达到最小值

从敏感性分析结果可以看出，这些参数对模型的预测性能有显著影响。每个参数都存在一个最优值，在该值附近模型的 MAE 和 RMSE 指标达到最佳。这也说明了在实际应用中，合理选择参数对于模型性能的重要性。例如，窗口长度的选择需要平衡短期和长期信息的捕捉，优先级阈值的设置要确保选择合适的源域，学习率的调整要兼顾模型的收敛速度和稳定性。

10. 模型应用场景与拓展

DT - MUSA 模型在样本稀疏区域的预测任务中具有很大的应用潜力，以下是一些可能的应用场景：
- 电子废弃物回收预测 ：在不同地区的电子废弃物回收量预测中，由于各地区回收服务开展时间不同，部分地区数据稀缺。DT - MUSA 可以利用数据丰富地区的信息，对数据不足地区的回收量进行准确预测，帮助企业合理安排回收资源。
- 能源消耗预测 ：在一些新兴的工业园区或社区，能源消耗数据可能较少。通过使用 DT - MUSA 模型，结合其他类似区域的能源消耗数据，可以对这些地区的未来能源消耗进行预测，为能源供应和管理提供参考。
- 交通流量预测 ：对于一些新建的道路或交通枢纽，由于运营时间短，交通流量数据有限。该模型可以借助其他相似道路或枢纽的历史数据，对新建区域的交通流量进行预测，有助于交通规划和管理。

在未来的研究中，可以对 DT - MUSA 模型进行进一步拓展：
- 结合更多特征 ：除了时间序列特征，还可以考虑加入地理信息、人口统计信息等其他特征，以提高模型的预测精度。
- 优化源域选择策略 ：探索更复杂的源域选择方法，不仅仅基于数据分布的相似度，还可以考虑源域与目标域在业务逻辑上的关联性。
- 模型融合 ：将 DT - MUSA 与其他优秀的预测模型进行融合，发挥各自的优势，进一步提升模型的性能。

11. 总结

本文详细介绍了 DT - MUSA 模型，它是一种双转移驱动的多源域自适应模型，旨在解决样本稀疏区域的数据预测问题。模型主要由多源域自适应模块和双转移模块组成，通过多任务学习聚合源域公共知识，利用双转移算法（样本转移和模型转移）克服目标域数据缺失的问题。

在实验部分，通过与多种基线模型的比较，证明了 DT - MUSA 在预测性能上的优越性，能够有效减少负转移，提高预测精度。消融实验进一步验证了模型各组件的有效性，敏感性分析则为参数选择提供了依据。

尽管 DT - MUSA 模型已经取得了良好的效果，但仍存在一定的改进空间。未来可以通过探索深度特征自适应方法、结合更多特征、优化源域选择策略等方式，进一步提升模型的性能，使其在更多领域得到广泛应用。

以下是 DT - MUSA 模型的整体流程图：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(数据准备):::process --> B(源域选择):::process
    B --> C(多任务学习预训练):::process
    C --> D(样本转移):::process
    D --> E(模型转移与微调):::process
    E --> F(预测输出):::process

这个流程图展示了 DT - MUSA 模型从数据准备到最终预测输出的整个过程，包括源域选择、多任务学习预训练、样本转移、模型转移与微调等关键步骤，有助于更直观地理解模型的工作原理。