Abstract–
由于目前的恶意代码识别方法检测精度差,检测速度慢。此论文提出了一种新的利用数据学习来改进恶意软件变体检测的方法。
在以往的研究中,深度学习在图像识别方面表现出了良好的性能,为了实现前面提出的检测方法,可将恶意代码转换为灰度图像,然后,1使用卷积神经网络(简写为CNN,是一种深度学习的算法)对图像进行识别和分类,该网络可以自动提取恶意软件图像的特征。此外,2还利用BAT算法(批量处理)来解决不同恶意软件家族之间的数据不平衡(样本比例失衡)问题。
INTRODUCTION –
作为安全保护的一个关键部分,“发现恶意代码变体”尤其重要,恶意软件检测方法主要包括两种方法:静态检测和动态检测。静态检测通过分解硬件代码并分析其执行逻辑来工作。动态检测通过在安全的虚拟环境或沙盒中执行代码来分析恶意代码的行为 。这两种检测方法都是基于特征的检测方法,首先提取恶意代码的文本或行为特征,然后通过分析这些提取的特征对恶意代码进行检测或分类。但这两种基于特征分析的方法经常被破坏。将恶意软件二进制文件转换为自压缩或唯一结构的二进制文件的模糊技术会阻碍静态特征分析的有效性。动态特征分析经常受到许多为产生不可靠结果而制定的对策的挑战。此外,由于执行环境不符合规则,动态分析可能会忽略某些类型的恶意代码。于是,提出了一种基于图像处理技术的新方法 “恶意软件可视化 ”,而不是专注于恶意软件分类的不可见功能。
这项工作将压缩二进制样本的结构转换为二维灰度图像。然后,将图像特征用于分类。
挑战:1.找到有效和自动提取功能的方法。2.建立一个通用的检测模型,可以处理大量的变体
恶意代码的特征(如静态特征和动态特征)的恶意检测方法。基于各种机器学习技术的更强大的检测方法还使用这些功能来发现恶意代码或其变体。但是,当检测恶意代码变体或未知恶意软件时,这些方法的效率会降低。恶意软件可视化方法可以处理代码模糊问题,但复杂的图像纹理特征提取(如gist和glcm)所需的时间成本较高。此外,这些特征提取方法在暴露于大数据集时也显示出低效率。所以,建立恶意软件检测模型的挑战在于“找到有效和自动提取功能的方法”。此外,数据不平衡问题还带来了另一个挑战。在每年生成的大量恶意软件中,很大一部分包括属于现有恶意代码系列或组的变体。通