机器学习集成方法与网络入侵检测系统的数据处理与性能评估
1. 数据集生成与特征
在进行实验时,使用自定义流量生成器生成数据集。该生成器以西雅图互联网交换点(SIX)的实际流量测量数据为输入,SIX会在网上公布其统计数据。生成器输出的流量在周期性方面总体遵循实际流量特征。使用特殊流量生成器而非直接采用SIX观测到的流量,是因为SIX聚合了众多不同网络的流量,高达近2Tbps,而我们想研究单个节点对之间光网络中具有更多样化流量波动的流量。
为生成分析数据集,将生成的全部流量划分为多个网络服务,并分配其在预期总流量中的占比,具体如下:
| 网络服务 | 占比 |
| ---- | ---- |
| 互联网视频 | 51% |
| IP视频点播(IP VoD) | 22% |
| 网页数据 | 18% |
| 文件共享 | 8% |
| 游戏 | 1% |
每个服务都有其自身特性,这些特性参与最终数据的生成。流量被划分后分配到网络拓扑的节点上,这里考虑的是具有28个节点的Euro28骨干网络,节点间的流量分布与每对节点之间的距离成反比。输出流量是一系列包含756个数字的元组,代表每对节点在5分钟时隙内的流量。流量生成器的输入流量特征是在2019年10月24日至12月19日期间在SIX收集的。
流量波动用平均绝对百分比误差(MAPE)来衡量,它描述了一个函数的值与基准函数值的差异。计算单个流量的MAPE时,以用于生成流量数据集的原始SIX比特率流量作为基准函数,并将其归一化到考虑的流量比特率值的公共范围内。我们选择了以下数据集:
- dataset_1:单个节点对之间的流量,MAPE等于3.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



