基于规则集的恶意软件检测机器学习结果可解释性及联盟区块链移动恶意软件检测
1. 基于规则集的恶意软件检测机器学习结果可解释性
1.1 规则排序
在恶意软件检测中,对规则进行排序原本所需的复杂度为 (O(n^3m))。因此,我们决定采用贪心策略对规则进行排序,即仅依据规则所覆盖的真阳性(TP)样本进行一次排序。通过使用第一个测试集和机器学习算法的预测结果,我们得到了如图 5 所示的结果。从图中可以看出,这种排序方法使 RIPPER 的真阳性曲线变得更加平滑。而 I - REP 生成的部分规则在重新排序后没有真阳性覆盖情况,例如在使用随机森林(RF)进行降维的高斯朴素贝叶斯(GNB)模型中就出现了这种情况,支持向量机(SVM)结合 RF 时也有类似现象。
1.2 规则排序的优势
规则排序在实际应用中可能会带来潜在的速度提升,因为更强的规则会更早触发。此外,它还可以作为 RIPPER 优化阶段的额外工具,以实现新的特性。
1.3 实验算法及结果
在实验中,我们使用了两种规则学习算法:I - REP 和 RIPPER。I - REP 的实验结果较差,而 RIPPER 虽然能很好地覆盖大部分预测结果,但它无法找到不会增加最小描述长度(MDL)指标的合适规则。
1.4 可解释性评估
我们尝试评估基于规则的分类器(RBCs)对机器学习模型结果的解释能力。具体做法是考虑 RBCs 的准确率、真阳性率和假阳性率,这让我们大致了解哪些机器学习模型更容易被 RBCs 解释。例如,综合考虑这三个指标,我们正确地推测出 GNB 比 K - 近邻(KNN)更具可解释性。不过,这种方法存在局限性
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



