全面的安卓恶意软件检测方法
1. 数据集相关要点
在安卓恶意软件检测中,数据集的质量直接影响最终模型的性能。以下是一些选择数据集时需考虑的关键因素:
- 环境 :数据集样本可通过模拟恶意软件执行环境或在真实设备上记录获得。不过,模拟环境易受反模拟技术影响,从而对数据集中的记录样本产生不良影响。
- 标签 :带标签的数据集对监督式机器学习方法很有用,近年来这类方法被广泛研究。
- 版本 :随着技术发展,系统和攻击手段不断变化。因此,应使用与近期恶意软件发展同步的数据集,以确保模型在新系统上有效。
- 文档 :对获取的数据有良好理解至关重要。这不仅有助于模型微调,还能帮助理解结果和验证假设。此外,若数据集用于其他研究,还可进行方法比较和得出新结论。
- 输入类型 :有状态(基于上下文的输入)和无状态(随机输入)的输入类型会直接影响使用相同模型的结果。研究表明,有状态输入生成比无状态方法更稳定、更健壮。
2. 数据准备
本次使用的是 CCCS - CIC 合作项目提供的 “CCCS - CIC - AndMal - 2020” 数据集。该数据集虽未满足所有标准,但有 400K 个样本,且对 14 种主要恶意软件类别和 191 个著名恶意软件家族(包括零日类别)进行了有用分类。
具体操作步骤如下:
1. 从 APK 的 manifest.xml 文件中提取静态特征,如权限、操作、类别和服务,以二进制序列(0 表示特征不存在,1
超级会员免费看
订阅专栏 解锁全文
471

被折叠的 条评论
为什么被折叠?



