目录
1 引言
人工智能技术的迅猛发展正在深刻改变人类社会的生活方式和生产模式,其在科学发现、经济建设、社会管理等各个领域具有广泛应用-2。然而,随着人工智能系统尤其是大型语言模型和智能体技术的普及,其面临的安全与隐私挑战也日益凸显,成为技术发展过程中不可忽视的瓶颈和关键问题-2。2025年11月发布的《国际AI安全报告》第二次关键更新指出,尽管AI模型在抵抗恶意攻击方面取得了一定进展,但复杂攻击仍能在约50%的情况下仅用10次尝试就突破保护措施,并通过仅250个恶意文档毒化训练数据,这揭示了AI系统固有的脆弱性-1。
人工智能安全是通过技术防护与合规治理,防范人工智能系统遭受攻击、滥用及意外事故,保障其全生命周期稳定运行的综合体系-7。自2021年《互联网信息服务算法推荐管理规定》起步,中国逐步完善人工智能治理框架,最终在2024年形成《人工智能安全治理框架》1.0版,并于2025年9月升级发布2.0版,针对智能体化AI发展新趋势新增风险分级机制与动态防控措施-7。全球范围内,超过30个国家和国际组织(包括欧盟、OECD和联合国)共同支持的国际AI安全报告项目,正致力于为政策制定者提供基于证据的决策支持-1。
本文旨在系统梳理人工智能安全的主要研究内容,从理论基础、技术方法和治理框架三个层面展开讨论。首先构建人工智能安全的理论体系,然后深入分析内生安全、应用安全及治理伦理等核心研究领域,最后展望未来发展趋势与挑战,为人工智能安全研究的深入推进提供参考。
2 人工智能安全的理论基础
人工智能安全作为一个跨学科领域,其理论基础涵盖计算机科学、密码学、伦理学、法学等多个学科。从概念范畴来看,人工智能安全可分为内在安全、衍生安全和生态安全三个维度。内在安全指AI系统自身的安全性,包括算法、数据和系统的可靠性;衍生安全关注AI应用过程中产生的安全问题,如网络域、现实域的风险;生态安全则涉及AI与人类社会、环境交互带来的宏观影响-7。
2.1 内在安全理论
内在安全理论聚焦于AI系统自身的安全属性,主要包括鲁棒性、隐私性和可靠性。鲁棒性指AI系统在面临对抗攻击、异常输入或恶意环境时的保持正常运作的能力。隐私性关注训练数据和模型参数中的敏感信息保护。可靠性则强调系统在长期运行过程中保持预期性能的能力。这些属性共同构成了AI系统可信赖的基础-2-6。
深度学习模型的安全理论建立在对抗性机器学习基础上,该理论揭示了对输入进行微小但精心设计的扰动就可以导致模型错误决策。理论研究表明,由于高维空间中的线性特性,即使是在理论上看起来鲁棒的模型,也存在着被攻击的固有脆弱点-2。此外,模型可解释性理论试图通过可视化和归因方法揭开深度学习"黑箱"之谜,为安全评估提供理论基础。
2.2 衍生安全理论
衍生安全理论关注AI系统在与环境和人类交互过程中产生的风险。根据《人工智能安全治理框架》2.0版,衍生安全可分为网络域、现实域、认知域和伦理域四个维度-7。网络域风险包括利用AI技术进行网络攻击;现实域风险涉及物理世界的安全威胁;认知域风险关注AI对人类思维和判断的影响;伦理域风险则涉及算法偏见和社会公平问题。
这一理论体系强调,AI安全不仅是一个技术问题,更是技术管治与社会治理的综合体现。它要求我们在系统设计之初就考虑技术与社会的交互,将人类价值观和伦理规范嵌入到AI系统中,确保技术的发展与人类社会的长远利益相一致-7。
2.3 生态安全理论
生态安全理论从更宏观的视角审视AI与人类社会、自然环境构成的复杂生态系统。这一理论认为,AI安全必须考虑技术自主可控、供应链安全和地缘政治影响等系统性问题-10。在国家安全层面,技术的自主可控性成为关键考量因素,中国推动的"技术自主+安全治理"体系正是对这一理论的具体实践-7。
表:人工智能安全的理论框架
| 理论维度 | 核心关注点 | 主要安全属性 | 典型研究方法 |
|---|---|---|---|
| 内在安全 | AI系统自身安全性 | 鲁棒性、隐私性、可靠性 | 对抗性测试、形式化验证、隐私保护技术 |
| 衍生安全 | AI应用风险 | 可控性、公平性、透明度 | 红队测试、伦理审查、影响评估 |
| 生态安全 | AI与社会交互 | 可持续性、自主可控、公平普惠 | 政策研究、供应链分析、国际比较 |
3 人工智能安全的核心研究内容
人工智能安全的研究内容涵盖从技术到治理的多个层面,根据其特性可分为内生安全风险、应用安全风险以及治理与伦理安全三大类。深入了解这些研究内容对于构建全面的人工智能安全防护体系至关重要。
3.1 内生安全风险研究
内生安全风险指人工智能系统自身存在的脆弱性,主要涉及算法、数据和系统三个层面。这些风险源于AI技术的内在特性,即使在没有恶意攻击者的情况下也可能显现。
3.1.1 算法安全
对抗性攻击是算法安全面临的主要挑战,攻击者通过对输入数据添加人类难以察觉的微小扰动,导致AI模型产生错误输出。研究表明,篡改交通标志图像可使自动驾驶系统误判,进而引发交通事故-7。防御方面,对抗训练是提升模型鲁棒性的主要技术手段,通过在训练过程中引入对抗样本,增强模型对恶意输入的抵抗能力-2。此外,可解释性增强技术正成为研究热点,旨在提高模型决策的透明度,帮助开发者理解并修复模型中的安全隐患。
2025年的评估结果显示,尽管AI模型抵抗攻击的能力有所提升,但高级攻击者仍能在约50%的情况下,仅用10次尝试就突破模型的安全防护-1。这种攻防不对称现象凸显了算法安全研究的紧迫性。
3.1.2 数据安全
数据安全关注训练数据的完整性、机密性和可用性。数据投毒是一种严重威胁,攻击者通过注入少量恶意样本(研究表明仅需250个恶意文档)就能破坏模型性能-1。实际案例中,聊天机器人曾被注入极端言论,导致输出不当内容-7。
隐私保护方面,成员推理攻击能够推断特定个体是否存在于训练集中,导致隐私泄露-7。为应对这一挑战,差分隐私和联邦学习等技术被广泛采用。差分隐私通过在训练过程中添加精心设计的噪声,在保证模型性能的同时保护个体隐私;联邦学习则使数据保留在本地,仅共享模型更新,显著降低隐私泄露风险-2。
3.1.3 系统安全
系统安全关注AI工程实现中的漏洞和风险。开源组件漏洞曾导致ChatGPT用户数据泄露事件-7,凸显了软件供应链安全的重要性。此外,算力资源滥用可能引发供应链中断,影响AI系统的稳定运行-7。
针对智能体系统的安全研究成为新兴方向。ASTRA框架作为首个全面评估LLM在智能体环境中安全性的框架,模拟了10种自主智能体(从编程助手到送货无人机)及其37种工具的使用情况-3。评估发现,不同的开源LLM在执行多轮规划和严格工具激活策略方面存在显著安全性差异,这为改进LLM安全性提供了重要参考。
3.2 应用安全风险研究
随着AI技术的广泛应用,其在各个领域引发的安全问题日益凸显,这些风险不仅来源于技术本身,也来自于技术与应用环境的交互。
3.2.1 网络域风险
网络域风险指利用AI技术进行的恶意网络活动。2023年,基于AI的深度伪造欺诈案件数量激增3000%,钓鱼邮件增长1000%,伪造领导语音实施诈骗的案件涉及金额超千万元-7。黑客组织使用AI自动生成恶意代码,能绕过超70%的传统防御系统-7。
为应对这些威胁,内容溯源与水印标记成为关键防护技术。数字货币交易中的内存特征分析技术,结合多种细粒度内存特征,能有效检测代码注入攻击-2。此外,基于多特征集成学习的恶意软件静态检测框架,通过提取非PE结构特征、可见字符串与汇编码序列特征等五类特征,构建集成模型,显著提高了恶意软件检测能力-2。
3.2.2 现实域风险
现实域风险涉及AI在物理世界中引发的安全问题。自动驾驶算法缺陷可能引发交通事故,智能招聘系统的数据偏差可能导致歧视性录用-7。这些风险因其可能造成不可逆的物理损害而尤为严重。
应对现实域风险需要构建安全测试认证体系。例如,自动驾驶系统需通过百万公里模拟测试,医疗AI需遵循三类医疗器械认证要求-7。在工业控制领域,针对Cyber Physical Systems (CPS)的安全研究日益受到重视,这些系统涵盖从联网车辆、医疗设备到关键基础设施的广泛领域-8。
3.2.3 认知域与伦理域风险
认知域风险关注AI对人类思维和判断的影响,信息茧房和认知操纵是其主要表现。个性化推荐算法可能强化用户已有的偏见,形成信息过滤泡;生成式AI产生的内容影响公众认知判断-7。优化推荐机制透明度是缓解这类风险的关键途径。
伦理域风险涉及算法偏见和社会歧视问题,如在信贷评估中出现的性别差异-7。控制权争夺导致的责任归属难题也是伦理域的重要议题。建立算法审计与伦理审查制度是应对这些风险的必要措施。
表:人工智能应用安全风险与防护措施
| 风险领域 | 典型威胁 | 潜在影响 | 防护措施 |
|---|---|---|---|
| 网络域 | 深度伪造欺诈、AI生成恶意代码 | 经济诈骗、数据泄露、系统入侵 | 内容溯源、水印标记、AI防火墙 |
| 现实域 | 自动驾驶事故、智能系统歧视 | 人身安全、社会不公平、经济损伤 | 安全测试认证、模拟测试、冗余设计 |
| 认知域 | 信息茧房、认知操纵 | 公众认知偏差、社会分裂 | 推荐机制透明化、信息多样性保护 |
| 伦理域 | 算法偏见、责任归属难题 | 社会歧视、法律纠纷 | 算法审计、伦理审查、多方治理 |
3.3 治理与伦理安全研究
治理与伦理安全为人工智能的发展提供制度和规范框架,确保技术创新与社会价值相协调。随着AI技术的普及,治理与伦理研究的重要性日益凸显。
3.3.1 治理框架与合规体系
中国的人工智能治理框架起源于2021年《互联网信息服务算法推荐管理规定》,经2023年《生成式人工智能服务管理暂行办法》等文件逐步完善-7。2024年发布的《人工智能安全治理框架》1.0版确立了技术防治、分类管控和责任追溯三大机制-7。2025年升级的2.0版针对智能体化AI发展趋势,新增风险分级机制与动态防控措施,强化跨国协同治理要求,新增"可信应用、防范失控"原则与应用衍生安全风险治理维度-7。
技术防治机制针对模型脆弱性开发对抗攻击检测工具,构建数据质量评估标准-7。分类管控按风险等级划分应用场景,医疗、金融等领域实行准入许可制-7。责任追溯要求研发者遵循安全开发指引,服务提供者承担内容审核主体责任-7。
3.3.2 全周期防控实践
人工智能安全治理强调全生命周期防控,覆盖开发、部署、运维和退役四个阶段-7。开发阶段需实施算法备案与安全评估,微软等企业已建立红队测试机制-7。部署阶段要求自动驾驶系统通过百万公里模拟测试,医疗AI遵循三类医疗器械认证要求-7。
运维阶段需建立模型迭代监测日志,金融领域AI决策系统需定期接受合规审查-7。退役阶段则要制定数据销毁标准,防止退役模型被恶意复现-7。这种全周期防控体系能有效降低各阶段的安全风险。
3.3.3 国际协作与标准化
全球治理层面,中国提出的《全球人工智能治理倡议》与美欧等国制定的监管法规共同构建国际协作框架-7。2025年发布的《框架》2.0版通过风险分级分类、安全测评体系等机制增强与国际规则衔接-7。
国际AI安全报告项目是跨国协作的重要范例,由图灵奖得主Yoshua Bengio主持,涉及100多位国际专家,得到包括欧盟、OECD和联合国在内的30多个国家和国际组织的支持-1。这种协作模式为建立全球统一的AI安全标准奠定了基础。
4 人工智能安全的发展趋势与挑战
人工智能安全领域正处于快速演进阶段,了解其发展趋势与挑战对于把握未来研究方向至关重要。
4.1 技术发展态势
从技术角度看,AI安全领域呈现以下发展趋势:首先,开源模型的能力差距正在缩小,开源权重模型目前落后行业领导者不到一年,这种民主化访问在促进技术普及的同时,也使防止故障和误用的努力复杂化-1。其次,AI智能体安全成为新兴焦点,随着AI代理在真实环境中执行操作能力的增强,其安全风险也相应增加。ASTRA框架的提出标志着对AI智能体安全性的系统评估正式开始-3。
另一重要趋势是隐私保护技术的深度融合。分布式深度学习通过联合学习、联邦学习和分割学习等模式,实现了数据的本地操作,降低了用户隐私泄露风险-2。然而,生成对抗式网络攻击、成员推理攻击和后门攻击等典型攻击表明,分布式深度学习依然存在严重隐私漏洞-2。
在防御技术方面,神经网络水印技术和主动防御成为研究热点。水印技术被扩展到AI领域,用于保护训练成本高的神经网络模型,通过在白盒和黑盒场景下嵌入水印,确权模型所有权-2。主动防御则通过构建对抗性样本检测机制,提前识别并阻止攻击行为。
4.2 治理体系演进
治理体系向精细化、标准化和国际化方向发展。2025年国家网络安全宣传周发布的人工智能安全行业自律倡议,推动形成覆盖设计研发、训练部署、使用维护的全周期治理标准,明确算法安全评估、供应链安全核查等具体要求-7。
行业安全承诺显著增加,但实际效果仍不确定。2025年,采用风险管理框架的AI公司数量增加了一倍以上,但这些框架在实践中的有效性仍然不确定-1。这反映出治理有效性评估将成为未来研究的重要方向。
4.3 未来挑战与应对
人工智能安全领域仍面临多重挑战:首先,攻防不对称问题短期内难以解决,防御始终落后于攻击技术发展。其次,可解释性与性能平衡难题亟待突破,高可解释性往往以牺牲模型性能为代价。第三,国际标准协同存在地缘政治障碍,难以形成全球统一的监管框架。
为应对这些挑战,需要从多方面着手:技术上,开发更强大的形式化验证方法,为AI系统提供可证明的安全保证;治理上,建立敏捷监管框架,在鼓励创新的同时有效管控风险;国际合作上,聚焦于底线标准的协调,即使在有分歧的领域也能就最低安全标准达成共识。
5 结论
本文系统研究了人工智能安全的主要研究内容,从理论基础、核心研究内容到发展趋势进行了全面分析。研究表明,人工智能安全已成为一个涵盖技术、管理和伦理的综合性研究领域,其内在安全、应用安全以及治理与伦理安全三个层面相互关联,共同构成了完整的人工智能安全研究体系。
从技术层面看,对抗性攻击、数据投毒、模型可解释性等内生安全风险仍是研究重点,而深度伪造、算法偏见等应用安全风险也日益受到关注。从治理层面看,全球正在积极探索适合的人工智能治理路径,中国的《人工智能安全治理框架》和欧盟的《人工智能法案》等代表性政策文件,共同推动了人工智能治理体系的完善。
人工智能安全研究仍处于快速发展阶段,开源模型能力接近专有模型、AI智能体安全、隐私保护技术深化等趋势正在重塑研究格局。未来研究需要在增强模型鲁棒性、开发更有效的水印技术、建立全周期防控体系等方面继续深入,同时加强国际协作,共同构建安全、可信、可控的人工智能生态系统。
随着人工智能技术的持续进步,安全研究将不断面临新的挑战和机遇。只有通过跨学科、跨领域的紧密合作,才能确保人工智能技术真正造福人类社会,成为推动社会进步的建设性力量。
1261

被折叠的 条评论
为什么被折叠?



