可解释深度学习AI:从恶意软件检测到医学图像标注
一、可解释深度学习在恶意软件检测中的应用
1.1 解释基线的影响
在研究Android勒索软件的特征时,解释基线起着关键作用。例如,在实验中,我们可以使用不同的基线来回答不同的问题:
- 当以训练集中可信样本的中位数特征向量为基线,计算测试勒索软件样本的绝对归因时,能了解勒索软件与可信样本的差异。
- 反之,以训练集中勒索软件样本的中位数特征向量为基线,计算测试可信样本的绝对归因,则可知道可信应用与勒索软件的不同之处。
- 还可以定义其他基线,如某些特征取中性(零)值,其他特征取中位数,以探究特定特征下可信(勒索软件)样本与勒索软件(可信)样本的差异。
1.2 特征基数的影响
典型的基于机器学习的静态分析会评估软件组件的存在或使用频率。我们对分类器的“二值化”版本进行评估,即特征值为1或0,分别表示组件(如API调用)是否存在。通过对比二值特征分类器和非二值特征分类器的实验结果,发现:
- 表面上,二值特征分类器和非二值特征分类器认为突出的特征大多相同。
- 但二值特征无法揭示可信应用比勒索软件样本更广泛使用布局组件,也不能显示勒索软件应用通常由较少屏幕组成。
1.3 特征粒度的影响
使用不同粒度的API调用相关特征,可能会影响分类器的检测性能、对抗攻击的弹性或学习模式。具体操作如下:
1. 考虑一个使用API类调用而非包调用的分类器,得到4676个特征。
2. 将每个与API类调用相关的特征的归因分组到相应的API包中。
3. 计算该包的平均归因。
结果表明,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



