人工智能安全_人工智能安全体系-优快云博客

该文章系统探讨人工智能安全体系，将其分为三大核心方向：人工智能助力安全（AI for Security） 展现 AI 在防御（如智能入侵检测、恶意代码图像化分类）与攻击（如 GAN 破解验证码、自动化渗透测试）场景的双向应用；人工智能内生安全（AI Security） 揭示数据质量、框架漏洞（如 TensorFlow 的 CVE 漏洞）、算法黑盒特性等内部风险；人工智能衍生安全（AI Safety） 关注具备自主进化能力的 AI 行为体失控风险，需通过人机协作规范与自我终结机制防范。

在安全保障技术上，可信计算 3.0 以主动免疫为核心，通过双体系架构（TPCM 硬件与可信软件基 TSB）实现系统全生命周期度量，结合可信连接网络的双向认证机制与动态度量保护，构建从硬件到网络的立体防御。针对无人系统、智能制造等领域，需通过复杂系统建模、大数据风险预测及标准化技术应对工程风险，而网络安全中 AI 驱动的攻击呈现精确化、自动化、规模化趋势，防御端则依赖半监督学习、自编码网络等技术实现设备认证与异常检测。此外，对抗样本攻击（如白盒 / 黑盒攻击）与数据投毒等威胁，需通过威胁模型设计与算法可解释性优化提升系统鲁棒性。

一、人工智能安全三个子方向：

从人工智能内部视角看，人工智能系统和一般信息系统一样，难以避免地会存在脆弱性，即人工智能的内生安全问题。一旦人工智能系统的脆弱性在物理空间中暴露出来，就可能引发无意为之的安全事故。

从衍生安全的角度来看，其本质就是新技术自身的一些缺陷或脆弱性并不会影响新技术自身的运行，但却会被攻击者利用而危害到其他的领域。人工智能技术当然也存在着同样的情况。例如，人工智能的智能化判定需要高度依赖输入数据，自动驾驶的前提是要对环境参数进行正确的感知，一旦感知出现错误，如没有感知到对面的障碍物(感知部件已被攻击)，其决策结果当然就是错误的。因此，这种依赖输入的现象可以被视为人工智能系统的一种脆弱性。

可将人工智能安全分为3个子方向:人工智能助力安全(AI for Security)、人工智能内生安全(AI Security)和人工智能衍生安全(AI Safety)。其中，人工智能助力安全体现的是人工智能技术的赋能效应;人工智能内生安全和衍生安全体现的是人工智能技术的伴生效应。人工智能系统并不是单纯依托技术而构建的，还需要与外部多重约束条件共同作用，以形成完备合规的系统。人工智能安全体系架构及外部关联如图所示。

1.人工智能助力安全（AI for security):

(1)人工智能助力防御：

物理智能安防监控、军用机器人：

商业技术发展最快、市场容量最大的赛道

生活中随处可见的安防机器人

智能入侵检测：

在网络入侵检测领域，采用无监督机器学习自主扫描日志数据内容，并把聚类结果反馈给人类分析师。人类分析师会识别哪些是真正的网络攻击活动，并不断给网络攻击行为的数据打标签，再通过有监督机器学习将结果反馈给AI，升级现有模型。基于反馈循环原理，随着时间和数据量增多，能够不断提升检测率。

在物联网入侵检测领域，结合物联网设备种类多、网络结构复杂等特点，假设一个物联网系统由若干组物联网设备组成，用生成对抗网络的方法，基于物联网设备正常运行的历史数据训练若干组物联网正常运行数据的鉴别器。这若干组鉴别器便构建成了分布式入侵检测系统的模型集。这是一种基于生成对抗网络(GAN)的分布式入侵检测系统，能在不依赖任何集中式控制器的条件下对物联网进行异常行为检测。

恶意代码检测与分类：

在恶意代码检测方面，主要通过提取恶意代码的静态特征，包括文件哈希值、签名特征、API函数调用序列、字符串特征等，结合恶意代码运行时的动态特征，包括CPU占用率、内存消耗、网络行为特征、主机驻留行为特征等构建恶意代码特征工程，利用深度学习或机器学习自动对可疑恶意代码进行检测判定，通过人工智能的方法来提升检测效率。

在恶意代码分类方面，基于对抗的需求，当前，许多恶意代码经常被设计为特征可变异的“免杀”模式，即恶意代码多态化，导致恶意软件样本变种数量剧增。传统基于恶意代码行为和字符特征的方法会出现较高的误判。如果将恶意样本反汇编代码文件转换成图像作为样本的特征，通过精心设计，巧妙地将恶意代码分类问题转换为图像分类问题，由于攻击者通常不知道图像分类器是如何以图像识别形式来对代码进行分类的，因此就无法仅通过在局部修改代码的方法去躲避分类器的判定。这不仅因为图像分类在人工智能领域已是非常成熟的技术，容易进行甄别，更重要的是将代码转成了图像，就失去了代码本身所具有的微观特征，而突出了整体编程风格的特征。

基于知识图谱的威胁猎杀：

知识图谱是谷歌公司(Google)于2012年提出的概念，其本质是使用多关系图(多种类型的节点和多种类型的边)来描述真实世界中存在的各种实体或概念，以及它们之间的关系。基于知识图谱的安全猎杀，就是先把各类安全数据 “连” 成知识图谱，再用它梳理攻击关联、挖掘隐藏威胁，让安全团队从海量数据里精准 “揪出” 攻击迹象，主动狩猎威胁。

垃圾邮件检测：

传统垃圾邮件检测方法主要是在邮件服务器端设置规则进行过滤检测。其规则通过配置发送端的IP地址/IP网段、邮件域名地址、邮箱地址、邮件主题或内容关键字等特征进行黑白名单设置。该方法只能检测已知垃圾邮件，规则更新具有滞后性，检测效率低。利用人工智能技术，实现规则的自动更新，能够有效地解决传统垃圾邮件检测方法存在的不足。利用机器学习算法对邮件文本分类是当前主流的解决方案。

（2）人工智能助力攻击：

基于GAN的在线验证码破解（学习所需样本数量少，使用GAN生成可训练数据）

自动化鱼叉式钓鱼攻击（使用鱼叉式钓鱼数据训练，使钓鱼更准确化和规模化）

机器参与网络安全夺旗赛

自动化渗透测试（自主模拟真实黑客攻击手法，质量稳定且节省大量重复性劳动，渗透经验可自主迭代）

智能恶意代码（隐藏目标和意图，智能蜂群僵尸网络自组织、自决策、情报共享）

神经网络后门（模型在面对带有后门触发器的输入时，会被识别为攻击者想要伪装的对象）

对抗机器学习（保留自己恶意行为，把自己标记成良性样本）

2.人工智能内生安全（AI Security)：

（1）数据安全：

数据集的质量影响人工智能内生安全

数据集的质量取决于数据集的规模、均衡性、准确性等。首先，数据集的规模如果较小，有可能导致算法执行产生不安全的结果。不同任务的难度不同，需要的数据量也不同。对于不同的任务，如果数据集规模达不到要求，训练后得到的人工智能模型运行的准确率就低，很有可能会在识别任务中产生错误的识别结果。

数据集的均衡性也是影响人工智能算法效果的一个重要因素，即不均衡的数据集会造成人工智能算法失效。一般而言，数据集的均衡性是指数据集中包含的各种类别的样本在数量上的均衡程度。数据集越均衡，数据样本分布偏差越小，人工智能算法的运行效果往往越好。

最后，数据集的准确性也是影响人工智能算法内生安全的一个重要因素数据集中的数据通常都是经过标注的数据，数据标注是构建数据集很重要的一步。

数据投毒可能导致人工智能算法出错

例如，两类样本数据(分别用五角星和圆形进行区分)可以很容易地用一个线性函数进行分类，如果在这些正常样本中故意添加一些分类错误的样本，分类模型就会变得非常复杂，训练得到的模型参数就会与原本的明显不同。部分模型可能会因为过度拟合这些错误的训练样本，导致无法对一些新的数据进行正确分类。

对抗样本影响模型的分类

在数据集中通过故意添加细微的干扰所形成的输入样本，这种样本导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率，在对抗扰动的训练集样本上训练网络。简单地讲，对抗样本通过在原始数据上叠加精心构造的人类难以察觉的扰动，使深度学习模型产生分类错误。

（2）框架安全：

很多程序在不同的人工智能算法中是可以高度复用的，因此出现了很多深度学习的框架，提供了常用的函数和功能等，供开发者以更简单的方式实现人工智能算法。目前使用较多的深度学习框架包括TensorFlow、Theano、Keras、Infer.NET、CNTK、Torch、Caffe、PaddlePaddle 等。

例如，TensorFlow使用了大量的第三方库，如NumPy、libjpegturbo等，系统越复杂，包含的依赖关系越多，越有可能存在安全隐患。例如CVE9 公布的 CVE-2018-10055 漏洞，指出 TensorFlow 1.7.1之前版本上的 XLA编译器存在非法内存访问或堆溢出漏洞，攻击者可通过构造特殊配置文件的方法，导致被攻击的程序运行崩溃或发生严重的非法内存读取错误；CVE-2019-9635 洞四指出 TensorFlow 1.12.2之前的版本存在“空指针解引用”漏洞，可通过构造特殊GIF文件对系统进行“拒绝服务攻击”。

（3）算法安全：

从算法的可解释性层面介绍人工智能可能存在的内生安全问题。

难以检测恶意篡改。在许多复杂的人工智能模型，如深度神经网络中，模型结构和参数众多，内部运行机制如同一个 “黑盒”。攻击者可能对模型进行恶意篡改，例如在训练数据中注入后门数据，使得模型在正常输入时表现正常，但在特定输入下给出错误结果。由于模型的不可解释性，很难发现这种被篡改的迹象，从而导致安全漏洞。

无法评估对抗样本。对抗样本是通过对正常输入进行微小但精心设计的扰动而生成的样本，可导致模型输出错误结果。由于模型的黑盒特性，难以解释为什么模型会被对抗样本欺骗，也就无法有效评估和抵御对抗样本攻击。

难以定位问题根源。当人工智能系统出现安全问题时，可解释性有助于快速定位问题根源。然而，由于模型不可解释，开发人员只能通过反复尝试和错误来摸索可能的原因，这大大增加了修复安全漏洞的难度和时间成本。比如在工业控制系统中，若基于人工智能的故障诊断模型出现误报或漏报，由于无法解释模型的判断逻辑，技术人员很难确定是模型本身的问题，还是数据质量的问题，从而无法及时采取有效措施修复漏洞。

数据偏见难以发现。人工智能模型的训练依赖大量数据，如果数据存在偏见（如性别、种族、年龄等方面的偏见），在不可解释的模型中，这种偏见很难被发现。例如，在招聘算法中，如果训练数据大多来自某一性别或种族占主导的企业，模型可能会在无意识中偏向于招聘特定群体的人员，而由于模型不可解释，这种不公平的偏见可能长期存在。

（4）模型安全：

模型存储和管理的安全。比如云端服务器可能被攻击而导致模型参数泄露，又比如很多边缘端设备的安全性达不到要求，攻击者可能对云端模型参数传输的过程进行攻击，或者直接对边缘端设备进行攻击，获取模型参数，并实施攻击。在这样的情况下，如果黑客获取了模型参数，便可以从边缘端入手攻击神经网络，造成目标检测失败等后果。

开源模型被攻击。训练人工智能模型需要大量的数据和计算资源，很多开发者愿意将训练后的模型共享给更多用户，在这个过程中，攻击者便有机会对开源的模型进行攻击，通过下载或购买此类模型，向其中注入恶意行为，生成“变异”的神经网络模型并再次共享，从而造成恶劣的影响。由于变异的神经网络模型在一般情况下表现得很正常，隐藏于其中的恶意行为很难暴露，因此当攻击者重新发布和共享携带恶意行为的神经网络模型后，会引起重大的安全问题。

（5）运行安全：

比如，如果算法所在的环境发生了变化，而经过抽象的数据如果不能描述这种变化，人工智能模型则无法分辨环境改变对数据和算法造成的改变。从数据层面即使已经描述了不同的环境数据，但是很有可能由于之前并没有出现过某个特定的环境，造成人工智能模型无法准确预判非常规的环境数据。从框架和模型层面，人工智能的框架自身可能存在安全漏洞，而开发人员在实现人工智能算法时难免不出现内存越界、空指针引用等程序漏洞。这些客观存在的各种漏洞将是影响人工智能模型安全运行的重要因素。

3.人工智能衍生安全（AI Safety)

人工智能行为体(Artifcial Intelligence Actant，AIA)三要素：

具有行为能力以及破坏能力、具有不可解释的决策能力、具有进化能力并且能进化成自主系统

预防人工智能失控的举措：

人机协作国际规范：安全级监控停止、手动引导、速度和距离监控、功率和力限制。

阿西洛马人工智能原则。

自我终结机制防范系统性失控风险。

二、人工智能何以安全

1.可信计算保障人工智能安全

（1）可信计算的发展路径

可信计算1.0以容错技术为指标，以保障系统可靠性为主要目标，采用故障诊断、冗余备份等手段，解决软硬件随机故障、物理干扰、设计错误等影响系统正常运行的各种问题。
可信计算2.0以TCG提出的TPM技术为代表，主要采用硬件被动挂钩、软件被动调用模式，通过应用调用TPM的可靠度量、可靠存储、可靠报告等功能，由于没有更改传统体系结构，系统很难主动防御。
可信计算3.0的主要特点是主动免疫，主动免疫防御技术的关键是防止用于完成计算任务的逻辑组合被篡改或破坏。可信计算3.0可在计算的同时进行安全防护，计算全过程可测可控，不受干扰，因此可保证计算结果始终如预期。

（2）可信计算的3.0架构

在可信计算的双体系架构下，通过在TPCM(Trusted Platform Control Module，可信平台控制模块)中装入可信根，以可信密码模块为根基，构建可信平台控制机制，使TPCM具有整个平台的主动控制权;在TPCM的主板上添加了具有主动度量功能的节点，使具有可信和计算双功能的节点融合;在软件基础层完成了可信软件基和宿主OS的双重系统核心，通过在宿主OS的核心位置接入一个可信软件基接管系统调用，在不影响应用软件正常工作的前提下实现主动防护。

（3）可信软件基

可信软件基(Trusted Software Base，TSB)是可信计算体系的重要组成部分，基于双体系架构思想设计。软件层面意义上的双体系即宿主OS上的基础软件(宿主基础软件)和可信软件基。可信软件基在基础软件运行时进行主动拦截和度量，不需要修改原应用，通过制定相应的策略管理机制进行实时有效的主动防护，从而破坏和阻止进入系统的病毒或木马等，达到主动免疫防御的安全效果。可信软件基由基本信任基、主动监控机制和支撑机制等主要部件组成，其组成架构如上图所示。
可信软件基是TPCM的操作系统，位于TPCM和宿主基础软件之间，实现对TPCM的管理及TPCM对宿主基础软件的可信支撑。从系统被启动的那一刻开始，可信软件基以TPCM为可信根，根据传递机制在可信链中进行传递，在各级实现主动的度量功能，保证系统启动、运行和网络连接等各阶段的可信，从而建立“无缝”的主动防御体系，实现系统的主动免疫。可信软件基嵌在宿主基础软件中，在TPCM等可信硬件及固件的支撑下，与宿主基础软件并列运行，分别实现各自的功能，共同组成双体系架构。双体系架构通过在操作系统的核心层面上植入一个可信的控制软件接管系统调用，在不影响应用软件正常工作的前提下实现主动防护功能。

（4）可信连接网络

人工智能数据可信交互通过人工智能衍生安全保障体系中的可信通信网络实现。在人工智能数据交互可信连接网络中，人工智能终端需要对自身接入网络的状态进行度量，合乎规则的人工智能终端才能接入网络，这样做可以让有潜在风险的人工智能终端无法接入网络，从而规避风险。同时，人工智能终端也可以验证自身即将接入的服务器只有合乎人工智能终端保护规则的服务器才具有接入人工智能终端的权利，相较于之前的被动防御，这是预先验证、主动验证、双向验证的接入方法。

1.实体构成：
人工智能数据交互可信连接网络实体包括访问请求者、访问控制器策略管理器。

访问请求者主要功能：请求接入可信连接网络，鉴别访问请求者和访问控制器之间的双向身份，获取访问请求者关于人工智能计算节点完整性的度量报告，完成与访问控制器之间的可信平台双向完整性评估。

访问控制器主要功能：完成与访问请求者之间的双向身份鉴别和可信平台双向完整性评估，以及人工智能计算节点的行为度量;接收访问请求者的完整性度量值，收集人工智能数据交互网络接入点的完整性度量值，将这些完整性度量值发送给人工智能数据交互可信认证中心；对人工智能计算节点进行行为度量，并将行为度量报告发送给策略管理器；依据访问请求者身份鉴别情况、人工智能计算节点的完整性度量报告控制使用者的访问权限。

策略管理器主要功能：帮助访问控制器和访问请求者完成身份的双向鉴别，还要校验双方证书是否有效；校验人工智能计算节点的完整性，检查人工智能数据交互网络的接入点是否完整;检查人工智能计算节点的行为和完整性度量；最终得出一份完整的可信平台评估报告。
2.架构层次
在架构层次方面，可信连接网络包含网络访问控制层、可信平台评估层、完整性度量层、人工智能行为度量层。
网络访问控制层有以下功能：在人工智能数据交互可信认证中心的帮助下，完成人工智能数据交互访问请求者与人工智能数据交互网关之间的双向身份鉴别。在这个过程中，人工智能数据交互可信认证中心作为可信赖的第三方，依据人工智能数据交互访问请求者与人工智能数据交互网关身份鉴别后的结果和可信平台评估层发出的连接策略控制其访问权限。

可信平台评估层有以下功能：在人工智能数据交互可信认证中心的帮助下，对人工智能计算节点和人工智能数据交互网络接入点之间的双向可信平台进行评估。在这个过程中，人工智能数据交互可信认证中心作为可信赖的第三方，校验人工智能数据交互网关与人工智能数据交互访问请求者双方的证书是否有效，然后使用完整性度量层中的完整性度量校验者完成人工智能计算节点和人工智能数据交互网络接入点的双向可信平台完整性校验。
完整性度量层有两个实体，一个是完整性度量收集者，另一个是完整性度量校验者。完整性度量收集者收集人工智能计算节点和人工智能数据交互网络接入点的平台完整性信息。完整性度量校验者校验人工智能计算节点和人工智能数据交互网络接入点的平台是否具有完整性。
在人工智能行为度量层，策略管理器对人工智能终端和人工智能数据交互网络的行为数据进行校验。

（5）人工智能系统可信审计

1.审计数据分类
审计记录人工智能系统的各种活动，审计模块提供统一的审计输出方式，其他人工智能子系统根据策略输出各种类型的审计数据。常用的审计数据有以下几种。
(1)一般审计(简称审计)记录:记录普通的人工智能系统活动，用于审计分析。
(2)度量记录:记录度量的结果(一般是度量失败的结果)，用于进行可信评估和分析。
(3)策略学习采集记录:采集可信系统运行过程中的真实数据，用于给出策略编辑的建议，甚至在某些环境中直接“生产“策略。
(4)行为记录:行为记录可能也是策略学习采集记录，也是一般审计记录。由可信数据处理子系统对输出的审计数据进行分类处理。

2.审计数据处理

(1) 对审计记录进行转换、缓存、过期清理。为本地查看和上传提供读取接口。将审计记录转换为便于查看和阅读的格式，并提供不依赖数据存储格式的读取接口。已上传或过期很久的审计记录会被清除，以减少对存储空间的占用。
(2)对度量记录进行转换、缓存、过期清理。为本地查看和上传提供读取接口。将度量记录转换为便于查看和阅读的格式，并提供不依赖数据存储格式的读取接口。已上传的度量记录会被清除，以减少对存储空间的占用。
(3)对策略学习采集记录进行转换、缓存。为本地查看和上传提供读取接口。将策略学习采集记录转换为便于查看和阅读的格式，并提供不依赖数据存储格式的读取接口。已上传的策略学习采集记录会在本地保存，以便进行查重处理，减少不必要的重复上传。
3.审计数据上传
如图所示，审计记录上传线程会周期性地检查是否有需要上传的审计记录，若有就上传部分审计记录，并将相应的审计记录标记为可删除;系统在休眠一段时间后重复上述工作。审计记录上传允许一定的延后，以便合理调度，减小人工智能终端和人工智能服务端的压力。

审计记录上传度量记录上传

度量记录上传线程会检查是否有需要上传的度量记录，若有就上传全部度量记录，并将其标记为可删除。度量记录需要即时上传，以便管理中心和其他节点了解本节点的可信状态。

（6）人工智能系统运行环境度量保护

在静态度量的功能基础上，可信软件基能够保障系统运行时的对象初态是可信的。在此基础上，根据度量对象的不同，动态度量选择适合的度量时间和度量操作，主动度量系统中不同度量对象的状态，同时按照制定好的管理策略及不同度量对象的不同特性，针对状态发生变化的度量对象进行报警(审计)，进入终止运行策略、更新其度量的预期值或采取可信的恢复操作，从而保障系统在运行状态中的可信性，支撑系统的可信证明机制和访问控制机制。

动态度量主要实现以下目标：
(1)对人工智能内核模块进行度量:动态度量通过开启一个内核线程，对系统加载的人工智能内核模块的代码段进行检测，与先前保存的度量值进行比较，从而判断人工智能内核模块是否存在异常。
(2)通过对人工智能进程代码段的度量，利用与进程相关的共享库实现对系统运行时注入式攻击的检测，增强访问控制机制的安全性和
有效性。
(3)对人工智能系统的执行路径关键点进行度量:对系统来说，中断描述表、系统调用表等是系统重要的执行路径点，动态度量在系统启动早期将重要路径的信息保存起来，在检测到系统的执行路径异常时进行恢复，从而保障系统正常运行。
(4)对人工智能系统的重要数据结构进行度量:系统重要的核心数据结构也是需要重点保护的对象，如superblock、net family、socket、net device、tcpip协议栈关键点。对重要数据结构、文件系统等进行度量，保证系统中重要的一些数据结构是可信的。
(5)对人工智能系统的内存块进行度量:由于内存中可能保存着用户重要机密信息，动态度量提供对一段内存的动态度量，防止用户重要信息被修改。
(6)对人工智能进程系统调用行为进行度量:对进程运行过程中的系统调用动作序列进行度量。动态度量模块通过跟踪学习进程的系统调用序列，为人工智能系统关键进程建立执行图模型，对进程的系统调用行为进行可信度量。

在系统的对象初态可信的基础上，动态度量的工作机制如下：在度量对象启动之前收集其预期值，利用收集到的预期值结果，在系统运行过程中验证其状态。

2.无人系统安全的技术保障措施和风险分级应对

（1）技术保障措施：

复杂系统建模。对多无人系统本身的建模，要考虑异构单体无人系统的传感器特性，信息处理能力和其他机械电子特性，还要考虑多无人系统的通信能力、组织能力、整体动力学特性和可能的协同决策或任务分配模式

大规模数据处理。在复杂系统建模的基础上，可以利用大数据处理方法来预测和分析潜在的人工智能风险。大数据处理技术是挖掘隐含规律的重要手段。对于已经明确的风险，如外界扰动因素引起的无人机、无人车、无人艇编队内部的碰撞，可以将多无人系统的不同单体或相似多无人系统集群在试验阶段乃至应用阶段发生同类安全风险事故的数据与正常数据进行大规模的信息挖掘，从而找到事故发生的诱因或前兆，有针对性地训练和完善此类多无人系统，甚至可以监测同类多无人系统的运行，向产生异常数据的多无人系统发送应急指令，降低未来发生同类事故的风险。大数据技术还可以辅助构建基于概率的效益一风险评估模型，如在军事作战、医疗手术和大型化工等对可靠性要求高的领域，在提升效益的同时，控制应用多无人系统协同技术后的风险成本与应用前相当。

高动态特征分析。在设计和试验阶段的安全风险预测基础上，对于要实际投入应用的多无人系统，还应为它们设计实时安全风险预测机制，即在高动态环境下，设计人工智能风险预测和分析方法。在研发多无人系统的过程中，多无人系统本身应具备一定的临机协同判断和协同决策能力，以应对环境的变化，规避风险。

多无人系统的安全需求与防御措施框架

（2）风险分级应对：

工程技术安全风险是高风险，采用控制+转移+适度承担的应对策略。

人文安全风险是中、低风险，因此采用监控+引导+适度承担的应对策略。

政府和企业的管理安全风险是中、高风险，因此采用控制+转移等多种应对策略。

3.强人工智能安全的风险分析与预防策略

（1）完善理论基础验证、实现模型的可解释性。

（2）严格控制底层价值取向，设计明文规则，从而限制人工智能的行动范围。

（3）实现技术的标准化，包括训练方法、数据集、安全保障、硬件芯片和模型设计的标准化。

（4）平衡系统的稳定性和可修正性，提升系统的鲁棒性和可靠性。

4.智能智造和智能城建中的人工智能应用安全

（1）智能制造的安全现状

近年来，全球重大工业系统网络安全事件频发，呈现逐年上升的趋势，事件频次和影响越来越大。其中一些著名的工控安全事件包括:2010年6月震网(Stuxnet)病毒事件，2012年Flame火焰病毒事件，2015年12月乌克兰电网攻击事件，2016年10月物联网Mirai僵尸网络攻击事件，2017年5月WannaCry勒索病毒事件，2018年8月台积电攻击事件等。现阶段，国内外智能制造领域的企业在人工智能应用安全方面认识不足、投入较少、基础薄弱，人工智能应用安全仍处于领导开始认识、整个社会主要聚焦传统的人工智能学术研究和少量试验适用阶段，尚未形成适用于各类人工智能应用安全的成熟产品和服务体系。

（2）安全风险分析

根据前述新智能制造系统的体系架构，为便于体系化分析人工智能在智能制造系统中应用的安全风险，将智能制造系统分为感知接入层、边缘处理层、云端平台层和应用层，其中各层均有人工智能技术的应用。

以感知接入层为例，工业装备与工业现场连接，一旦受到攻击或算法失灵，除了会使生产停滞，还可能威胁人身安全。工控设备具备的价值使其成为攻击者的目标，一旦攻击成功，不但会威胁工业设备的可用性，而且会直接导致工厂的停摆，造成经济损失，甚至威胁社会安全乃至国家安全。与此同时，智能制造中大量使用了图像、语音识别技术(如智能工厂中的产品外观检测、瑕疵检测等)，一旦系统受到攻击，模型和算法被改，将会影响产线的正常业务开展，导致产品瑕疵检测无法进行，降低生产效率。

（3）发展方向

人工智能应用的安全产品、软件等的研发与产业化。

人工智能应用安全态势感知平台的研发与产业化。

人工智能应用的系统化安全解决方案与运营服务的研发与产业化。

5.网络安全

（1）人工智能融入攻击

(1)在侦察跟踪阶段，人工智能可促使目标分析精确化。网络攻击的成败在很大程度上取决于计划阶段。人工智能对数据的理解、解释和发现能力可以用于提供深入的攻击对象分析，并通过自学习克服人类的局限性，实现对攻击目标的精确分析与定位。在攻击前使用聚类方法对攻击目标进行筛选，为攻击目标精确定位提供智能支撑。
(2)在武器构建阶段，人工智能能够辅助网络武器的高效构建。人工智能能够理解人类的自然语言，创建包含恶意负载的个性化消息。在假评论攻击场景中，可利用递归神经网络生成欺骗性假评论，实现攻击载荷的高效生成。
(3)在载荷投递阶段，人工智能能够实现攻击载荷的隐藏投送。攻击载荷的投递可以在人工智能技术的支持下，利用更多的隐身技术，保证载荷具有不可探测性。在网络钓鱼攻击中，通过学习历史攻击中最有效的网络地址模式，可以生成新的可以避开安全检测的钓鱼网址。
(4)在漏洞利用阶段，人工智能可实现漏洞的自动化利用。在获得目标访问权限后，人工智能技术的应用可以减少攻击阶段的人力资源投入，用机器人替代人类实施网络攻击。在僵尸网络攻击中，可以通过使用大量具有自主决策的机器人，在扩大网络攻击范围的同时，实现网络攻击的自动化。
(5)在安装植入阶段，人工智能可实现攻击工具的智能演进。在本阶段，攻击者已获取管理员权限，可以进一步探索互联的系统和资产，并搜索系统的敏感数据。在人工智能技术的支持下，具有自动传播能力的恶意程序能够做出自主决策，不断扩大入侵范围，感染尽可能多的节点。
(6)在命令控制阶段，人工智能可实现远程控制渠道的多层次化该阶段主要为攻击者建立可远程控制目标系统的路径。人工智能技术可根据来自环境的输入独立学习，从而自动控制目标系统行为的各方面，确保远程访问路径的多层次化，进而实现对目标的持久控制。
(7)在目标达成阶段，人工智能可实现网络攻击目的的规模化。成功预期目标包括但不限于数据泄露、勒索、破坏攻击、中断攻击和重构攻击等。人工智能技术的应用能够使攻击目的更具规模化，即扩大攻击范围，提高攻击成功率，确保网络攻击的利益最大化。

从人工智能技术对网络攻击的促进作用与影响来看，基于人工智能的网络攻击有三大优势:精确化、自动化和规模化，其划分的依据是目标范围、攻击速度和影响规模三个特征。精确化，是指从大型数据集中识别特定类型的攻击模式的范围，攻击者可以获得更精确的目标列表以适应其攻击策略。该类影响主要体现在侦察跟踪和武器构建两个阶段，为网络攻击准备提供精细化定位。自动化，是指机器可取代人工，实现自动化操作。由人工智能技术驱动的网络攻击，可以实现攻击目标锁定、安全漏洞扫描、攻击工具启动等流程的自动化运行。相比于人工操作，在攻击速度上有显著提升。该类影响主要体现在载荷投递、漏洞利用及安装植入三个阶段，为网络攻击入侵提供自动化手段。规模化，是指网络攻击所带来的影响更大、更远。这里的影响包括网络攻击的成功率、受攻击的范围、目标控制的持久性等，即最大化攻击目的的实现。该类影响主要体现在命令控制和目标达成两个阶段，为网络攻击实施提供智能支持。

（2）人工智能赋能防御

人工智能技术在网络防御中的应用主要包括防护增强、持续监测、积极响应、超前预测及开源情报等。后续发展趋势主要是不断拓展应用场景。

防护增强。

解决设备身份认证问题。首先利用半监督学习提取设备身份特征，根据暂态信号、调制信号频谱响应及传感器响应等信号，提取一系列特征，训练一个分类器并获取分类器的参数。在预处理过程中，使用均方根归一化，对不同的信号采样数据进行归一化处理。在提取特征的过程中，从归一化信号中获得信号频率、频率偏移、信噪比等特征。其次使用半监督学习进行分类器训练。在完成分类器训练后，设置归一化参数均值和标准差，随机选择部分用于训练的合法数据集和用于测试的合法数据集重复多次以累积合法测试数据的输出，之后计算相应的均值和标准差。最后是设备身份认证，分类器基于新接收的信号的输出计算归一化数值，如果在指示的阈值内，则通过认证。

恶意软件分析。基于无监督深度学习模型定位二进制文件中的恶意功能，并通过半监督学习聚类模型对所识别的一系列恶意功能进行分类。首先定位二进制文件中的恶意功能组件，使用自编码器进行样本重建。自编码网络内层存在压缩，学习训练中的关键分布，重建错误可以用来识别恶意软件中的恶意功能组件。由于以无监督的方式训练，所以不需要大量的标记样本。其次对定位到的恶意功能组件进行分类。对恶意软件样本中所有已识别的功能进行聚类，使用半监督学习聚类模型，随着时间的推移，可以通过将识别的函数映射到聚类模型中来预测它们的功能类别。

芯片木马检测。芯片硬件木马检测技术利用分类器对芯片硬件中的功能进行分类，对其中的安全相关部分进行识别。首先是对芯片硬件中的功能进行分类，使用预训练的逻辑回归分类器来分类。整体芯片硬件的功能分布包含同层及相邻层的功能分布定义。其次是对其中的安全相关部分进行识别，使用卷积神经网络对形成的芯片硬件功能分布图进行学习，提取安全相关部分的隐藏特征并用于构建模型，从而发现木马。

持续监测。

网络流量分析。使用机器学习直接从原始网络流量数据中学习获得网络流量模型，并在此后的网络异常检测等过程中，使用模型对网络流量进行针对性分析。在训练阶段，使用自编码学习网络接收网络正常流量，通过降维学习得到网络流量特征维度压缩表示，再从中恢复出原始网络流量。自编码学习网络的权重得到调整，能够学习得到网络正常流量的特征分布空间。在检测阶段，训练得到的网络模型在接收网络流量后，对其进行降维处理并恢复，如果所检测的网络流量特征不属于正常流量的特征分布空间，则说明恢复出来的流量与原始流量之间的距离差非常大。在距离差大于某个阈值时，判断网络流量属于异常流量。

用户实体行为分析。通过回归算法检测用户的异常行为(如在非常规时间登录系统)，通过分类算法，对不同类型的用户进行组内特征分析，通过聚类算法将违规的用户从组中检测和分离出来。基于机器学习模型，根据用户实体行为日志中的上下文信息推断事件语义，对类似行为进行聚类，从而分析行为模式。首先是构建用户实体行为模型，将用户实体行为日志数据作为输入，对日志进行解析，并构建基于日志的知识图谱，通过嵌入模型，推断出知识图谱中节点的上下文语义。其次是对用户实体行为进行聚类，将语义相似的子图归入集群，每个集群定义为一个行为并生成行为指纹。

Web应用安全检测。Web应用安全检测通过回归算法检测各种异常的HTTP请求，如XML外部实体攻击、服务器端请求伪造(SSRF)攻击和认证旁路等;通过分类算法检测已知类型的注入攻击，如跨站脚本攻击(XSS)和远程命令执行(RCE)等;通过聚类算法检测用户的活动，以发现DDoS攻击和大规模的漏洞利用;通过深度学习等机器学习算法检测Web钓鱼网站等。

端点威胁检测与响应。利用机器学习，从端点中的进程行为、网络行为、文件行为等数据中学习获得端点工作模型，并在监测阶段将实时数据与模型进行匹配，及时响应端点异常。首先是学习端点工作模型，使用进化学习与图学习技术，对端点工作时产生的大量数据进行聚类。在多次迭代训练过程中，学习端点工作时的正常变化模型，对端点工作中的启动、初始化、稳定运行等不同行为进行聚类。其次是实时监测和响应，基于端点实时运行时产生的数据，实时产生相应的图数据结构，并将该图数据结构与学习获得的端点变化模型进行比较，如果不能归入模型中的任何类别，则说明出现监测异常，马上启动相关响应。

积极响应。

网络犯罪取证分析技术。利用基于序列的机器模型，对网络犯罪行为式进行学习，并利用模型对犯罪现场的提取数据进行分析，还原网络犯罪流程。首先是学习网络犯罪行为模式，利用自然语言处理与深度学习技术，对网络数据进行处理，构建行为关联图，并利用长短时记忆网络对行为时序进行学习，构建网络犯罪上下文关联语义。其次是犯罪流程还原，基于网络威胁警报事件，在学习获得的模型中识别出网络犯罪疑似节点，通过筛选出与该节点相关的候选序列，使用基于序列的模型来识别其中参与犯罪的节点，并将识别出的节点统一起来，还原整体犯罪流程。

网络舆情分析技术。利用神经网络与知识工程训练进行情感分类，并对网络数据中反映的情感及形成的舆情进行分析。首先是对网络群众情感状况进行分类训练，使用增加了注意力机制的长短时记忆网络，将情感常识/知识纳入网络端到端训练，训练获得的是紧密集成情感常识/知识的循环编码器。其次是对网络中采集的数据进行分析，对其中涉及的群体情感进行归类分析，并基于一定时间序列的情感数据表征，分析产生的舆情。

（3）对抗样本问题

对抗样本按照攻击后的效果分为Targeted Attack(定性攻击)和 Non-Targeted Attack(无定向攻击)。区别在于Targeted Attack 在攻击前会设置攻击的目标，攻击后的效果是确定的，而Non-Targeted Attack是不确定的，

对抗样本按照攻击成本分为White-Box Attack(白盒攻击)、Black-Box Attack(黑盒攻击)和 Real-World Attack/PhysicalAttack(真实世界/物理攻击)。

White-Box Attack是其中攻击难度最低的一种，前提是能够完整获取模型的结构，包括模型的组成以及隔层的参数情况，并且可以完整控制模型的输入，对输人的控制粒度甚至可以到比特级别。由于White-BoxAttack前置条件过于苛刻，通常作为实验室的学术研究或者作为发起Black-BoxAttack和 Real-World Attack/Physical Attack的基础。

Black-Box Attack 相对 White-Box Attack攻击难度具有很大提高，Black-Box Attack完全把被攻击模型当成一个黑盒，对模型的结构没有了解，只能控制输入，通过比对输人和输出的反馈来进行下一步攻击，见图0-8。

Real-World Attack/PhysicalAttack(见图 0-9)是这三种攻击中难度最大的，除了不了解模型的结构，甚至对于输人的控制也很弱。以攻击图像分类模型为例(见图0-10)，生成的攻击样本要通过相机或者摄像头采集，然后经过一系列未知的预处理后再输入模型进行预测。攻击中对抗样本会发生缩放、扭转、光照变化、旋转等。

（4）其他安全问题

人工智能算法大多涉及训练和测试两个步骤，大部分学习算法都基于训练数据和测试数据独立同分布假设进行设计，没有考虑潜在的攻击者。而从人工智能的安全性角度出发，在算法设计时考虑威胁模型(一组关于攻击者能力和攻击目标的假设)，是增强人工智能安全性的重要环节。人工智能可能会受到以下几类对抗性攻击。

（1）投毒攻击:对训练模型所需的训练数据进行投毒，注入一些攻击者精心伪造的恶意数据样本，破坏原有的训练数据的概率分布，破坏模型的可用性与完整性，属于诱发型攻击。

（2）逃避攻击:针对挖掘/推理过程的欺骗攻击，生成一些可以成功逃避安全系统挖掘的对抗样本。

（3）模仿攻击:与逃避攻击类似，但侧重于对受害者样本的模仿。

（4）拒绝服务攻击:通过精心设计的样本过载神经网络，或者减慢样本匹配速度。

（5）过激攻击:通过产生大量的误报警，使攻击超过系统/操作人员的处理能力。

（6）逆向攻击:利用神经网络提供的额外的API来获取系统模型的初步信息，进而通过这些初步信息对模型进行逆向分析，从而获得模型内部的参数或训练数据。

（7）响应劫持攻击:通过精心设计的样本误导系统产生错误的响应。

（8）重编程攻击:通过设计后的样本重新编程机器学习算法背后的深度神经网络，使其执行攻击者预定的任务。

对抗中存在不同类型的攻击，可以基于三种不同的特性对攻击进行分类。

基于攻击对分类器的影响，可将攻击分为诱发性攻击和探索性攻击。传统的机器学习假设训练数据和测试数据来自同一分布，攻击者通过修改训练数据或测试数据，使它们具有不同的分布，从而误导分类器。在诱发性攻击中，攻击者通过修改训练集中的数据来误导分类器的学习;探索性攻击则不影响分类器的学习过程，主要通过试探性的方法来获取系统分类器的信息，并根据这些信息修改测试集中的数据，从而降低系统的性能。例如，攻击者可以把一些样本发送给分类器，从分类器对这些样本的分类结果中获取分类器的信息。诱发性攻击主要影响训练数据，而探索性攻击主要影响测试数据。一般来说诱发性攻击会对系统造成更大、更长远的损害，因为它修改了训练数据的分布，误导了分类器的学习。

基于攻击造成的安全损害，攻击可分为完整性攻击、可用性攻击和隐私窃取攻击。在完整性攻击中，攻击者的目标是使恶意样本逃脱系统的检测。在可用性攻击中，攻击者提升系统的总分类误差(包括误报率和漏报率)，使系统不再可用。

根据攻击的特异性，攻击可分为针对性攻击和非针对性攻击。针对性攻击指的是攻击者针对某个或某些特定的样本进行攻击，从而降低分类器在这些样本上的性能。与针对性攻击相反，非针对性攻击不针对某些特定的样本进行攻击，它具有一个更加灵活的目标，能够攻击更加广泛的样本，其目标是降低分类器在广泛样本上的性能。