Conservative Novelty Synthesizing Network for Malware Recognition in an Open-Set Scenario
摘要:
- 问题背景:我们研究了对已知和新的未知恶意软件家族进行恶意软件识别的挑战性任务,称为恶意软件开放集识别(MOSR)。以前的工作通常假设分类器在密集的情况下知道恶意软件家族,即测试家族是子集或最多与训练家族相同。然而,在现实世界的应用中经常出现新的未知恶意软件家族,因此需要在开放集场景中识别恶意软件实例,即一些未知的家族也包括在测试集中,这在网络安全领域很少被彻底研究。
- 问题:MOSR的一个实际解决方案可以考虑通过一个单一的分类器(如神经网络)从已知家族的预测概率分布的方差来联合分类已知和检测未知的恶意软件家族。然而,传统的训练有素的分类器通常倾向于在输出中获得过高的识别概率,特别是当实例特征分布彼此相似时,例如,未知与已知的恶意软件家族,因此,极大地降低了对新型未知恶意软件家族的识别。
- 方案:为了解决这个问题并构建一个适用的MOSR系统,我们提出了一个新的模型,可以保守地合成恶意软件实例来模仿未知的恶意软件家族,并支持更强大的分类器的训练。更具体地说,我们在生成式对抗网络的基础上,探索并获得接近已知家族的边缘恶意软件实例,同时落入模仿的未知家族,以指导分类器降低和平坦未知家族的识别概率,并相对提高已知家族的识别概率,从而纠正分类和检测的性能。我们进一步构建了一个涉及分类、合成和矫正的合作训练方案,以促进训练并共同提高模型性能。此外,我们还建立了一个新的大型恶意软件数据集,名为MAL-100,以填补缺乏大型开放性恶意软件基准数据集的空白。
- 结果:在两个广泛使用的恶意软件数据集和我们的MAL-100上的实验结果证明了我们的模型与其他代表性方法相比的有效性。
引言:
- 恶意软件识别背景:恶意软件,又称恶意软件,包括计算机病毒、间谍软件、特洛伊木马、蠕虫等,会对各种设备和公共网络造成严重破坏,并导致网络安全的许多问题。近年来,恶意软件的实例不断增加,带来了许多挑战[1],[2]。恶意软件识别的目的是将众多的恶意软件实例分类为不同的家族,即一组具有类似攻击技术的恶意软件实例,然后可以进行进一步的调查和预防措施。以前的恶意软件识别工作通常持有一个相对较强的假设,即所有的恶意软件家族对识别系统来说都是已知的,这意味着测试实例与训练实例在近似的情况下属于同一家族。这种设定是可以部分接受的,因为一方面,恶意软件家族在一定时期内是相对稳定的,另一方面,从整个网络中完全收集所有的恶意软件家族是不可能的。因此,在过去的几年里,封闭式的恶意软件识别已经被广泛研究[3]-[6]。
- 开放集恶意软件识别背景:然而,随着近年来网络应用的普及,越来越多的恶意软件攻击者不断发布属于各种已知家族的恶意软件实例和更多新的未知家族。正如NortonLifeLock(以前称为赛门铁克)[7]所指出的,每年有超过3.17亿个新的恶意软件实例被发现,其中许多不属于我们以前已经知道的任何恶意软件家族。这些新的未知恶意软件家族的实例在一些特征上有所不同,如统计特征、攻击技术等。在这种情况下,传统的恶意软件识别系统无法处理识别任务,不仅需要对已知家族进行分类,还需要同时检测新的未知家族。如图1所示,已知恶意软件家族的实例,如 "Neshta"、"Ramnit "和 "Adposhel",在分类器的训练阶段被使用。在测试或推理过程中,分类器首先要正确区分一个实例是否来自这些已知的家族,然后尽可能准确地将其分类到一个特定的已知家族。这项任务可以被视为恶意软件开放集识别(MOSR),其中 "开放集 "的概念在计算机视觉领域的一些最新作品中被注意到[8]。