基于注意力机制的加密流量识别
在网络流量分类领域,面临着数据集和评估标准不一致的问题,这使得不同研究中的模型和算法难以在统一基准下进行比较。为了解决这一问题,同时实现对加密流量的准确分类,本文提出了基于注意力机制的方法,利用特定模型对网络流量进行深入分析和分类。
1. 主要贡献
- 时间序列分析 :将网络流量视为时间序列数据,借助长短期记忆网络(LSTM)模型,把其当作文本数据进行分析。实验表明,当每个流量包含 10 个数据包,每个数据包包含 1500 字节时,能对网络流量进行最佳表示。
- 提出分类模型 :提出了两种用于加密流量分类的模型,即基于注意力的 LSTM 和分层注意力网络(HAN)。基于注意力的 LSTM 更关注流量中重要的数据包,而 HAN 能够在分类过程中区分每个数据包中不同字节的作用。
- 高准确率 :仿真结果显示,所提出模型的分类准确率可达 91.2%,优于传统的基于机器学习的方法。
2. 方法
2.1 数据集
选择 ISCX VPN - NonVPN 数据集,该数据集包含两个层次的流量分类任务:一是协议类型的识别(如聊天、电子邮件等),二是应用类型的识别(如 Facebook、Skype 等)。从协议类型的角度进行分类,包含 6 种非 VPN 数据和 6 种 VPN 数据。数据集以 pcap 文件形式保存,每个文件的名称由协议指定。原始数据集约 35G,在 Hadoop 平台上进行数据预处理,处理后的数据约 1G。为了选择最佳超参数,基
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



