训练数据集是否仍具相关性?
1. 研究背景
如今,安卓移动平台已成为最受欢迎的平台,仅官方谷歌应用商店就有数十万款应用,下载量超过数十亿次。然而,随着其受欢迎程度的增加,针对该平台的恶意软件(即恶意软件)也日益增多。研究表明,平均而言,安卓恶意软件在被安全研究人员发现之前,可能在长达3个月的时间内未被察觉,这使得用户在此期间处于易受攻击的状态。为了缩小这3个月的检测差距,安全研究人员不断提出新的恶意软件检测技术,其中包括基于机器学习的方法。
2. 机器学习基础
- 特征与算法 :机器学习是指通过示例数据或过去的经验对计算机进行编程,以优化性能标准。常见的学习方法是监督学习,在这种方法中,计算机首先通过训练数据进行学习。训练数据由特征向量组成,每个特征向量都与一个标签相关联,例如,在我们的案例中,已知为恶意的应用(恶意软件类)或良性的应用(良性软件类)。运行学习算法后,将输出与目标输出进行比较,并根据误差的大小校正学习参数。为了将应用分类为恶意软件和良性软件类,该方法必须定义一个相关度量和一个判别函数。安卓恶意软件检测的文献中包含了各种特征示例,如字节码的n - 元组、API使用情况、应用权限使用等。也存在多种分类算法,包括支持向量机(SVM)、随机森林集成决策树算法、RIPPER规则学习算法和基于树的C4.5算法。
- 工作示例 :为了研究历史在训练和测试数据集选择中的重要性,我们使用静态分析安卓应用的字节码,提取程序控制流图(CFG)的抽象表示。通过特定方法将CFG表示为字符串,该字符串保留了代码结构的信息,但丢弃了变量名或寄存器号等低级细节。从应用的抽象CFG中收集所
超级会员免费看
订阅专栏 解锁全文
509

被折叠的 条评论
为什么被折叠?



