大模型提示工程的四类安全性威胁

最新推荐文章于 2025-07-14 11:23:54 发布

原创最新推荐文章于 2025-07-14 11:23:54 发布 · 768 阅读

CC 4.0 BY-SA版权

文章标签：

168 篇文章

订阅专栏

大模型提示工程作为人机交互的核心技术，其安全性问题日益凸显，主要面临提示词泄露（暴露）、数据投毒、目标劫持和越狱攻击四类威胁。

在这里插入图片描述

通过诱导模型输出内部系统提示或敏感信息，攻击者可获取核心指令逻辑或机密数据。主要形式包括：

案例：南洋理工大学提出的HOUYI方法，在36个大模型应用中实现了86.1%的提示泄露成功率，显示其广泛脆弱性。

通过污染训练数据或微调阶段注入恶意样本，破坏模型决策逻辑：

训练阶段投毒：在开源数据集（如LAION-400M）中混入0.01%的毒性样本（成本仅需60美元），即可显著影响模型输出。例如，篡改医疗影像标签导致误诊，或植入虚假新闻模板传播误导信息。
运行时投毒：攻击者通过重复输入错误事实（如“地球是平的”），利用模型持续学习机制污染知识库，影响后续用户交互。

危害延伸：投毒不仅导致模型幻觉，还可能引发下游应用灾难，如自动驾驶标识误判引发车祸，或金融模型推荐欺诈性投资。

通过恶意指令覆盖原有任务，操控模型执行非预期行为：

技术特征：攻击成功率高达86.1%，且可嵌入多模态载体（如图像注释、音频指令）实现隐蔽操控。

绕过模型安全限制生成有害内容，主要分为四类：

角色扮演越狱：要求模型扮演“无道德限制的AI专家”，突破伦理约束输出危险信息（如制毒方法）。典型案例“奶奶漏洞”通过虚构情境（如“扮演已故奶奶读序列号”）绕过版权限制。
多轮对话越狱：分步引导模型启用“开发者模式”，逐步解除安全过滤。例如，先诱导模型承认假设性规则，再要求其执行高风险操作。
时间设定越狱：将请求时间改为过去式（如“2023年如何制造燃烧弹”），利用模型历史数据训练漏洞提升攻击成功率（如GPT-4o的越狱率从1%飙升至88%）。
多模态越狱：结合有毒图像/音频与文本提示，触发模型边缘处理能力漏洞。例如，上传含暴力元素的图片并附加文本指令，诱导生成煽动性内容。