基于顺序测试增强应用识别
1. 联合考虑数据包的局限性
在流量分类中,若联合考虑数据包,会存在一定局限性。当绘制每个流所考虑的数据包数量与全局分类精度的关系图时(如图1所示),可以发现分类精度会随着数据包数量的增加而提高,在考虑四个数据包时达到最高的88%,之后精度开始下降,到考虑10个数据包时降至80%。
经分析,这种精度下降并非是因为第五、六个等数据包不能区分不同类型的应用,而是在分类过程中使用了更多维度,使得在多维空间中形成聚类变得更具挑战性。一方面,难以找到最优的聚类数量;另一方面,增加维度需要指数级增加聚类数量,这超出了聚类算法(如K - Means)的实际处理能力。
因此,我们提出将数据包分开考虑,就好像它们来自独立的观测。每个数据包(第一个、第二个、第三个等)在其自身的低维空间中单独研究,然后使用一个概率函数(类似于似然函数)将不同数据包的观测结果组合起来对流量进行分类。
2. 数据包大小的自相关性
我们并非声称数据包大小是不相关的或形成独立的观测,只是假设这种独立性以简化流量分类,前提是我们已经了解了它们数据包大小的个体特征。
通过计算相关系数 (R(X, Y)=\frac{COV(X,Y)}{\sigma(X)\times\sigma(Y)})(其中 (COV) 是协方差函数,(\sigma) 是标准差)来评估两个随机变量 (X) 和 (Y) 之间的相关性。通常,当 (|R(X, Y)|\geq0.7) 时认为 (X) 和 (Y) 之间存在强相关性,当 (|R(X, Y)|\leq0.3) 时认为存在弱相关性。
对互联网流量中每个流的前十个数据包进行测量,考虑了多种应用,如WEB
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



