
一、文章主要内容总结
- 研究背景与问题
- LLM在多轮对话中可能生成灾难性响应(如制造爆炸物、生物武器的指导),但现有评估存在缺陷:依赖固定攻击提示序列、缺乏统计保证、无法覆盖庞大的多轮对话空间。
- 单轮越狱攻击已被广泛研究,但现实中攻击者会通过多轮看似无害的对话逐步引导模型输出有害内容,这种多轮风险评估仍存在空白。
- 核心方法:QRLLM框架
- 核心目标:对LLM在多轮对话分布下生成灾难性响应的概率进行边界限定,提供统计保证。
- 对话建模:将多轮对话视为查询序列上的概率分布,通过查询图上的马尔可夫过程表示,图中边编码语义相似性以捕捉真实对话流。
- 三种实用分布:定义了三种低成本且实用的查询序列分布,用于模拟不同攻击策略。
- 随机节点(Random Node):独立随机选择查询,评估模型整体生成有害内容的倾向。
- 图路径(Graph Path):查询序列为图中的路径,分“普通”(最后一个查询随机)和“有害目标约束”(最后一个查询限定在高风险集合)两种,模拟连贯对话流。
- 带拒绝的自适应(Adapti

订阅专栏 解锁全文
151

被折叠的 条评论
为什么被折叠?



