基于规则的恶意软件检测机器学习结果的可解释性
在机器学习领域,决策集和决策列表是常用的工具,它们在恶意软件检测等任务中发挥着重要作用。本文将详细介绍决策列表的相关概念、规则学习算法,以及基于规则的分类器的实现和实验结果。
决策集与决策列表
决策集不需要对规则进行排序,所有规则都对给定样本的分类进行投票。然而,当决策集变得非常大时,理解起来就会变得相当困难。因此,在本文中,除非另有说明,我们将使用决策列表。决策列表的覆盖范围定义如下:
给定一组样本 $S$,决策列表 $R$ 的覆盖范围定义为:
$coverage(R, S) = coverage(r_n, coverage(r_{n - 1}, …, coverage(r_1, S) …))$
其中 $n$ 是 $R$ 中规则的数量。
从决策树到规则
决策树是另一种流行的机器学习工具,它由节点组成,除了最后一个节点外,每个节点都使用给定值测试一个特征。最后一个节点(也称为叶子节点)代表一个决策,例如将样本分类为良性或恶意。虽然决策树的基本思想很简单,但它们可能会变得相当复杂且难以解释。
例如,图 1 展示了一个简单的决策树,其结果可以用规则轻松描述:
if a ∧ b then x
else if c ∧ d then x
else if e then x
else y
Quinlan 设计了一个名为 C4.5rules 的算法,用于将决策树转换为决策列表,并尝试对其进行改进。然而,该算法的这一部分计算成本较高,Cohen 表明其复杂
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



