
该文章揭示了大语言模型(LLMs)测试时缩放(TTS)技术中,候选响应多样性降低会导致不安全输出的关键风险,并提出REFDIV协议作为诊断工具,同时验证了其跨模型、跨策略的有效性。
一、文章主要内容总结
- 核心问题发现:TTS技术的核心前提是“候选响应多样性提升可靠性”,但研究发现,即使轻微降低候选多样性,TTS生成不安全输出的概率会显著增加,这是此前未被识别的失效模式。
- REFDIV协议提出:设计“参考引导多样性降低协议(REFDIV)”,通过遗传算法迭代优化提示词,先引导候选响应向有害方向偏移,再最小化其多样性(用香农熵衡量),以此对TTS管道进行压力测试。
- 实验验证范围:
- 模型覆盖:4个开源模型(Qwen3、Mistral、Llama3.1、Gemma3)和4个闭源模型(GPT-4.1、o3-mini、Gemini-2.5-Flash/Pro)。
- TTS策略:验证了两种主流策略——蒙特卡洛树搜索(MCTS)和Best-of-N。
- 对比基准:与GCG、AutoDAN两种主流越狱攻击方法对比,REFDIV的攻击成功率(ASR)普遍更高,对Llama3.1-8B和Ge

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



