LESS DIVERSE, LESS SAFE: THE INDIRECT BUT PERVASIVE RISK OF TEST-TIME SCALING IN LARGE LANGUAGE MODE

在这里插入图片描述

该文章揭示了大语言模型(LLMs)测试时缩放(TTS)技术中,候选响应多样性降低会导致不安全输出的关键风险,并提出REFDIV协议作为诊断工具,同时验证了其跨模型、跨策略的有效性。

一、文章主要内容总结

  1. 核心问题发现:TTS技术的核心前提是“候选响应多样性提升可靠性”,但研究发现,即使轻微降低候选多样性,TTS生成不安全输出的概率会显著增加,这是此前未被识别的失效模式。
  2. REFDIV协议提出:设计“参考引导多样性降低协议(REFDIV)”,通过遗传算法迭代优化提示词,先引导候选响应向有害方向偏移,再最小化其多样性(用香农熵衡量),以此对TTS管道进行压力测试。
  3. 实验验证范围
    • 模型覆盖:4个开源模型(Qwen3、Mistral、Llama3.1、Gemma3)和4个闭源模型(GPT-4.1、o3-mini、Gemini-2.5-Flash/Pro)。
    • TTS策略:验证了两种主流策略——蒙特卡洛树搜索(MCTS)和Best-of-N。
    • 对比基准:与GCG、AutoDAN两种主流越狱攻击方法对比,REFDIV的攻击成功率(ASR)普遍更高,对Llama3.1-8B和Ge
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值