利用可解释机器学习改进恶意软件检测
1. 引言
在恶意软件检测领域,机器学习凭借其强大的区分能力和识别新型恶意软件变体的能力,得到了广泛应用。然而,传统的恶意软件检测方式虽能取得不错的检测性能,但难以深入了解学习算法提取的知识。而且,无法保证检测器能正确区分恶意和合法类别,这就可能让攻击者创建出在特征空间中与合法样本具有相同表示的恶意样本,即“对抗样本”,这些恶意应用会被学习模型误判为合法应用。
近年来,恶意软件攻击目标逐渐从桌面系统和Windows平台转向智能手机和移动平台,如安卓系统。本文聚焦安卓勒索软件这一新兴威胁,它的检测是评估可解释性影响的一个具有挑战性且具代表性的领域。勒索软件通过锁定受感染设备或加密其数据,迫使设备所有者支付赎金以恢复设备功能。勒索软件开发者常利用正常合法的组件和功能执行恶意行为,使其难以与真正的应用区分开来。
本文的贡献主要有三点:
1. 借鉴先前研究方法,提出识别通用勒索软件样本、特定家族以及此类攻击随时间演变特征的实用策略。
2. 通过评估使用发现的相关特征训练的分类器的预测性能,验证分析的有效性。
3. 讨论选择和调整解释方法时需考虑的其他方面,即它们如何影响待回答的问题。
2. 背景知识
2.1 安卓应用
安卓应用以apk格式存在,是一种压缩存档,主要由以下几部分组成:
- AndroidManifest.xml和其他xml文件:用于指定应用程序的布局。
- 一个或多个classes.dex文件:包含应用程序的编译源代码,包括所有用户实现的方法和类。
- 各种资源:如图像、通用文件(资产)和本地库。
超级会员免费看
订阅专栏 解锁全文
2401

被折叠的 条评论
为什么被折叠?



