一次训练两个任务：使用监督对比学习的加密网络流量分类框架

文章目录

摘要
引言
相关工作
方法
实验

摘要

随着网络安全受到广泛关注，加密流量分类已成为当前研究的重点。然而，现有方法在进行流量分类时，往往未能充分考虑数据样本之间的共性特征，从而导致性能不佳。此外，它们通常将数据包级与流级分类任务独立训练，这种做法存在冗余，因为数据包级任务中学习到的表示实际上可以被流级任务直接利用。

为此，本文提出了一种高效模型——对比学习增强的时序融合编码器（Contrastive Learning Enhanced Temporal Fusion Encoder, CLE-TFE）。具体而言，我们利用监督式对比学习来增强数据包级与流级的表示能力，并在字节级流量图上进行图数据增强，使得字节间细粒度、语义不变的特征能够通过对比学习得到充分捕获。此外，我们提出了跨层多任务学习框架，使数据包级与流级分类任务能够在同一模型中通过一次训练同时完成。

实验结果表明，CLE-TFE 在两个任务上均取得了最佳整体性能，同时其计算开销（即浮点运算量 FLOPs）仅约为预训练模型（如 ET-BERT）的 1/14。我们已将代码开源，项目地址为：
👉 https://github.com/ViktorAxelsen/CLE-TFE

引言

随着计算机网络技术的不断发展以及大量设备接入互联网，用户隐私愈发容易受到恶意攻击的威胁。尽管 VPN 和 Tor 等加密技术 [27] 在一定程度上能够为用户提供保护 [31]，但这些技术也可能被攻击者利用以隐藏身份。传统的数据包检测（DPI）方法在应对加密流量时已逐渐失效 [25]。如何从加密流量中有效地识别攻击者的网络活动（如网页浏览、应用使用）仍然是一个亟待解决的挑战。

近年来，研究者提出了多种方法来提升加密流量分类的能力。其中，统计特征驱动的方法 [7, 24, 34, 37, 41] 通常依赖人工设计的流量统计特征，并结合传统机器学习模型进行分类。然而，这类方法需要大量特征工程，并且容易受到不稳定流的影响 [47]。随着表示学习的发展 [15]，部分研究开始尝试使用深度学习模型进行流量分类，如预训练语言模型 [18, 23]、神经网络 [19, 47] 等。对于同一标签下的样本，通常存在一些共性特征。然而，现有方法多直接对统计特征或原始字节进行表示学习，却未能充分挖掘不同样本间特征的潜在共性，从而难以捕获数据中语义不变的信息。因此，如何利用样本之间的共性特征来帮助模型学习更鲁棒的表示，仍然是一个难题。

此外，当前方法无法在同一模型中同时完成数据包级与流级流量分类任务，因而通常需要分别进行两次独立训练。这不仅增加了训练冗余性，而且忽视了这样一个事实：在数据包级任务中已经学习到的信息性表示完全可以被流级任务所利用，无需从头开始重新学习。因此，如何在模型训练中利用不同层级任务间的潜在联系以提升整体性能，也是一个重要挑战。

为应对上述问题，本文提出了一种新颖且高效的模型——对比学习增强的时序融合编码器（Contrastive Learning Enhanced Temporal Fusion Encoder, CLE-TFE），用于加密流量分类。CLE-TFE 以 TFE-GNN [47] 为基础，主要由两个模块组成：对比学习模块与跨层多任务学习模块。

在对比学习模块中，我们分别在数据包级与流级开展对比学习：

在数据包级层面，利用 TFE-GNN 的字节级流量图进行图数据增强，以更好地捕获字节间细粒度、语义不变的特征，从而获得鲁棒的数据包表示。

在流级层面，对流内的数据包进一步进行增强，以提升流级表示的表达力。

与无监督对比学习 [36] 不同，本文采用监督式对比学习 [13] 来挖掘同一标签样本之间的共性特征，从而进一步提升模型性能。

在跨层多任务学习模块中，我们在同一模型内一次训练即可同时完成数据包级与流级流量分类任务，并揭示了两者之间的跨层关系：数据包级任务能够为流级任务提供有益的信息。

在实验部分，我们基于 ISCX VPN-nonVPN [6] 与 ISCX Tor-nonTor [14] 数据集，并与 20 余种基线方法进行对比评估。实验结果表明，CLE-TFE 在两个层级的任务上均取得了最优的整体性能。与 TFE-GNN 相比，CLE-TFE 几乎未增加额外参数，但计算开销却显著降低近一半，并在 ISCX-VPN 与 ISCX-nonTor 数据集上分别提升了 2.4% 与 5.7% 的 F1-score。

本文的主要贡献总结如下：

为充分利用样本间的共性特征，本文提出了一种简单而有效的模型 CLE-TFE。通过在字节级流量图上进行图数据增强，结合监督式对比学习，挖掘字节间细粒度的语义不变特征。

据我们所知，本文首次在同一模型中通过跨层多任务学习同时完成数据包级与流级流量分类任务，且几乎不增加额外参数。实验也表明，数据包级任务对流级任务具有显著的促进作用。

我们在 ISCX 数据集 [6, 14] 上同时进行了数据包级与流级的综合实验，结果显示 CLE-TFE 在整体性能上优于现有方法。

方法

3.1 框架总览（Framework Overview）

如图 1 所示，模型包含两个主模块：对比学习模块（第 3.2 节）与 跨层多任务学习模块（第 3.3 节）。

对比学习模块 同时包含 数据包级 与流级两个子模块：
- 包级对比学习：对字节级流量图进行图数据增强，构造包级增强视图，用于包级对比学习。
- 流级对比学习：在此基础上，通过随机丢弃流中的部分数据包构造流级增强视图，用于流级对比学习。
跨层多任务学习模块：利用包级与流级任务之间的跨层关系，将两层级的对比学习与分类任务联合训练，以获得更优表示。

3.2 双层级对比学习（Contrastive Learning at Dual Levels）

受对比学习强大表示学习能力的启发（第 2 节），我们在 TFE-GNN [47] 的基础上，引入包级与流级两层对比学习以增强表示能力，细节如下。

3.2.1 包级对比学习（Packet-level Contrastive Learning）

TFE-GNN 用原始字节构建流量图。若直接在字节序列上做增强不够直观便捷；考虑到图中节点代表字节值、边代表字节间的语义相关性，直接在图上扰动节点或边（粒度更细）更有助于通过对比学习挖掘语义不变的细粒度特征。因此我们采用图数据增强来构造包级增强视图，包括 节点丢弃 与 边丢弃 两种操作。

节点丢弃（Node Dropping）
给定流量图 G = {V, E}，以概率丢弃节点及其相关联的边（等价于在原始字节序列中删除对应字节）。形式化为：
$\{\, v_i \odot \rho_i \mid v_i \in V \,\},\quad E' = \{\, e_{ij} \odot \rho_i \mid e_{ij} \in E \,\} \tag{4}$
其中， $\rho_i \in \{0,1\}$ 服从伯努利分布 $\rho_i \sim \mathcal{B}(P_{\text{ND}})$ ，表示是否丢弃节点 $v_i$ 及其相关边 $e_{ij}$ ； $P_{\text{ND}} \in [0,1]$ 为节点丢弃率超参数。
边丢弃（Edge Dropping）
在 G' 上继续随机丢弃边（等价于移除任意两字节之间的语义相关性）。形式化为：
$G_{\text{AUG}} = \left( V', \ \{\, e_{ij} \odot \rho_{ij} \mid e_{ij} \in E' \,\} \right), \quad \rho_{ij} \sim \mathcal{B}(P_{\text{ED}}) \tag{5}$