自动化行为指纹识别技术解析
1. 分类技术对比与效果
在对消息类型的分类识别中,我们对比了不同技术的效果。之前的技术分类率为 47%,而采用支持向量聚类(SVC)技术后,虽然分类率提升幅度不大,但发现的不同消息类型数量从 62%大幅增加到了 96%。这表明,即使组合方法没有显著提高分类率,它也能保持分类率稳定,同时发现更多的消息类型。
对于 SMTP 流量,SVC 技术的表现更为出色。它不仅能像最近邻技术一样找到大部分消息类型,还将分类率大幅提高到了 72%,发现的消息种类达到了 80%。在得到的聚类结果上应用最近邻技术,结果也很接近,发现的消息类型数量达到了 90%。不过,每种类型分类率的标准差较高(0.39),主要是因为有一种类型在两种情况下都被完全忽略了。
2. 半自动化参数识别
在评估已知协议的分类结果时相对容易,但对于未知协议则困难得多,因为没有参考标准。经过研究,我们发现标准化加权字符位置度量是最适合的方法。
对于 SVC 技术,有两个重要参数:C 和 q。
- 参数 C :在实验中,C 的影响不大。它受到 SVC 技术本身的限制,满足 β initi < C < 1,其中 β initi 是 Wolfe 对偶形式中 βi 的初始值。这些初始值可以随机选择,因为它们的影响仅局限于计算时间。它们的总和必须为 1,我们可以选择 β initi = β = 1/#数据点数量。在我们的案例中,数据点数量就是数据集中的数据包数量。考虑到最小数据集大小为 100,C = 0.2 或 C = 0.3 是合适的选择。
- 参数 q :
超级会员免费看
订阅专栏 解锁全文
1211

被折叠的 条评论
为什么被折叠?



