基于操作码N元语法和机器学习的恶意软件检测
1. 引言
恶意软件(如病毒、蠕虫)会在未经所有者授权的情况下破坏现代计算机和网络。随着信息技术的快速发展,出于政治、经济、恐怖主义或犯罪等动机,新的恶意软件不断涌现。这些恶意软件有的用于窃取敏感信息,有的用于威胁主机和服务,因此恶意软件检测成为网络安全的重要问题。
目前,基于签名的检测方法是商业反恶意软件中最常用的方法,它通过识别二进制代码中的唯一字符串来检测恶意软件。这种方法能快速准确地识别已知恶意软件,但无法识别未知恶意代码,且容易被简单的混淆技术绕过。为了解决这些问题,基于启发式的方法被提出,它利用机器学习和数据挖掘技术,提取恶意样本和良性软件的特征,构建分类工具来预测未知软件。
本文使用基于操作码(opcode)的表示方法,通过信息增益(IG)和类别比例差异(CPD)选择合适的特征,最后使用支持向量机(SVM)进行恶意软件预测。主要贡献包括:
- 为恶意软件检测提供了良好的特征表示:从PE文件中提取操作码序列作为初步特征,并使用信息增益和类别比例差异选择顶级特征,这些特征能轻松表示PE文件。
- 考虑了多个因素:不仅将操作码N元语法的大小从1扩展到15,还将恶意文件的百分比在30%到70%之间进行扩展。
- 进行了全面的实验研究:通过一系列实验评估框架的各个部分,整个系统基于真实样本收集,包括恶意和良性PE文件。
2. 相关工作
2.1 基于签名的方法
基于签名的方法在反恶意软件行业广泛使用,通过识别恶意可执行文件和已感染文件中始终存在的字节序列来检测恶意软件。然而,这种方法无法检测已知恶意软件的变体或以前未见过的恶意软件,因为签
超级会员免费看
订阅专栏 解锁全文
1144

被折叠的 条评论
为什么被折叠?



