技术报告 | Attack2Vec: 使用时序词嵌入技术理解网络攻击的演变模式_attack2vec: leveraging temporal word embeddings to-优快云博客

Attack2Vec通过时序词嵌入技术研究网络攻击的演变模式，从攻击步骤的关联关系中揭示攻击者的操作方式和趋势，以提升防御系统效果。该方法在监测安全事件利用、预测新攻击等方面表现出优势。

首席安全官Plus是由一群科研院所的网络空间安全研究人员发起成立的民间网络空间安全知识平台，努力打造“有特色、高水平、国际化”的网络安全思想高地。围绕“大数据、云计算和人工智能”等高技术领域的网络安全前沿技术、产业趋势和资本市场，汇聚一流资源，产出一流安全洞察。如投稿，请发送到：csoplus@163.com。

Usenix Security是信息安全领域“四大”顶级学术会议（此外还包括S&P，CCS，NDSS）之一，始于上世纪90年代初，每年涵盖的安全领域包含：二进制安全、固件安全、取证分析、Web安全、隐私保护、恶意分析、硬件保护、智能合约等。Usenix Security 被中国计算机学会(CCF)列为“网络与信息安全”A类会议。本文选自Usenix Security'19技术报告(ATTACK2VEC: Leveraging Temporal Word Embeddings to Understand the Evolution of Cyberattacks)。

现代的网络攻击具有高度复杂性的特点，攻击者往往会通过一系列攻击步骤来达到破坏计算机系统目的，这一系列攻击步骤通常包括侦测（Reconnaissance）、漏洞利用（Vulnerability Exploitation）、持久化（Persistence）和提权（PrivilegeEscalation）等。

其中，侦测用来寻找受害者设备上的漏洞；漏洞利用用来根据发现的漏洞进行渗透操作；持久化用来固定攻击建立立足点，如在目标计算设备上安装远程访问木马；提权用来增加攻击者访问权限。值得注意的是，由于高级攻击由多个攻击步骤组成，攻击者可以灵活选择要利用的漏洞来调整攻击步骤组合。

一、研究背景

现有工作主要聚焦于单个攻击步骤（如，CVE漏洞利用）的演化以及独立使用，这些工作虽然有助于我们深入理解单个攻击步骤是如何被显著利用的，但是并没有告诉我们单个攻击步骤是在如何在复杂网络攻击中运用的。

而研究攻击步骤之间的关联关系，能够为学术界和工业界提供宝贵的安全洞见，进而深入理解攻击者的操作方式、攻击方式以及演化趋势，最终有助于设计出强有力的防御系统来应对这些复杂的网路攻击，同时有助于对攻击进行溯源和取证，找到幕后黑手。

高级攻击往往从漏洞利用开始，如当CVE发布一个新漏洞时，攻击者得知后会尝试一系列策略来利用这个新漏洞，直至成功地实施攻击达到可靠地损害计算机系统的目标。此后，这种综合攻击可能会被添加到工具软件中进行商业化，供多个攻击者使用。

本文中，将漏洞利用的相关攻击步骤序列称为漏洞上下文（Context）。因此，深入理解漏洞利用的上下文并检测其动态变化，有助于更好地掌握攻击者的操作方式，有助于开发出增强的主动防御系统，有助于提高企业和组织中的态势感知能力。

二、研究问题

然而，已有的攻击策略并不会随着时间的推移而变得稳定，而是会随着企业和组织部署新的防御措施，或者攻击者开发出了更有效的策略不在使用旧策略，而变得失效。

为此，现有的防御系统使用了监督学习模型来学习和训练漏洞以及相关的上下文来检测攻击，但是随着时间的推移，攻击方式不断演变，这些监督学习模型也不在有效，因此需要进行周期性的再训练。

因此，现有技术在理解高级攻击方面存在不够及时高效的问题。

三、解决方案

为了对攻击步骤的上下文进行建模，Attack2Vec采用了自然语言处理领域中的词嵌入（Word Embedding）技术。

词嵌入技术是用于建模单词之间关系的强大工具，它利用句子上下文（即，周围单词）将某一单词表示成低维向量，这个低维向量能够捕捉单词的上下文以及与其他单词之间的关系，从而允许我们理解单词在不同语言中的使用方式。

同样地，Attack2Vec将整个攻击序列视为一个句子，将每个步骤视为一个单词，进而计算攻击步骤的嵌入。一旦将攻击步骤之间的关系编码到向量空间中，就可以定量地研究隐空间中的攻击步骤的相似上下文，因此，Attack2Vec能够以更有意义且可测量的方式理解网络攻击演变模式。

四、实验评估

首先，研究团队收集了商业入侵防御系统（Intrusion Prevention System，IPS）两年的安全告警作为高级攻击的数据集。在整个收集期间，研究团队每周收集102张快照，每个快照涉及数千万台独立计算设备的1.9亿个告警，每个告警预示着攻击者的一个攻击步骤。此外，数据集中的告警类型超过8000种，从端口扫描到特定的CVE漏洞利用。需要补充说明的是，虽然这个数据集只包含基于签名的告警，但是这些告警对于研究实战化场景中的攻击者行为并不是毫无用处的。

其次，研究团队使用Attack2Vec接入安全事件流，并使用时序词嵌入技术来计算相关的上下文，实验表明：

1）Attack2Vec能够有效地监视安全事件是如何被利用的。例如，可以确定某个CVE漏洞何时开始被利用，何时它的利用变得稳定，何时攻击者在利用时改变策略。

2）通过利用不同安全事件上下文之间的相似性，可以推断出哪些事件经常被用作同一高级攻击利用，使得Attack2Vec比现有技术以更及时的方式识别新出现的攻击。例如，Attack2Vec能够识别Mirai僵尸网络的一个变种，包括它如何扫描Internet，如何试图利用与Apache Struts相关的CVE漏洞；也能够提前本文数据集来源单位72周识别出IOT相关的攻击。

五、论文贡献

1）证明了时序词嵌入技术是研究漏洞利用相关攻击步骤以及演变模式有效的方法；

2） ATTACK2VEC能够理解攻击步骤的出现、演变和特征；

3） ATTACK2VEC具有一定的识别新攻击的能力。