文章主要内容
本文提出了一种名为SaP(Safety Polytope)的几何框架,用于解决大语言模型(LLM)的安全问题。核心思想是在LLM的表示空间中定义一个凸多面体(Polytope),通过多面体的“面”(Facets)来刻画不同的安全约束,从而实现对不安全输出的检测和纠正。具体包括以下内容:
- 几何建模:将安全约束建模为LLM表示空间中的凸多面体,每个面代表一个安全约束,通过分类问题学习多面体的参数(超平面和阈值)。
- 概念编码器(Concept Encoder):引入非线性变换和稀疏正则化,解耦模型表示中的多义性,使不同面能对应特定的安全语义(如暴力、歧视等)。
- 表示转向算法(Representation Steering):在推理阶段动态调整模型的内部激活,将不安全的表示引导回安全区域,避免修改模型权重或重新训练。
- 实验验证:在Llama2-7B、Ministral-8B、Qwen2-1.5B等模型上测试,显著降低对抗攻击成功率(如Llama2的ASR从12.92%降至0.26%),同时保持任务性能(如MMLU准确率不变)。通过BeaverTails数据集验证了可解释性,发现不同面能特异性检测不同安全类别。
创新点
- 几何安全框架:首次将LLM安全建模为表示空间中的凸多面体约束,提供了显式的安全区域几何模型,区别于传统的权重修改或提示工程方法。
订阅专栏 解锁全文
2289

被折叠的 条评论
为什么被折叠?



