
一、文章主要内容总结
(一)研究背景与问题
当前大语言模型(LLMs)面临“基于功能的安全风险”挑战——模型输出可能因忽视逻辑隐含意义,无意中为有害行为提供便利。传统安全方案(如基于标量结果的奖励模型、参数调优、启发式解码策略)缺乏细粒度和主动性,无法在细微却关键的推理步骤中可靠检测并干预风险。在医疗、金融等高危应用场景中,忽视此类风险或破坏推理连贯性可能导致错误信息传播、混乱甚至实际伤害。
(二)核心解决方案:AURA框架
AURA(Affordance-Understanding and Risk-aware Alignment Technique)是一种多层级框架,以过程奖励模型(PRMs)为核心,实现对推理“逻辑连贯性”和“安全感知”的步骤级全面评估,具体包含两阶段:
- 自我批判引导推理循环:策略模型(基于指令微调的LLM)先生成两个初始推理轨迹,再对其批判以识别推理缺陷和功能违规,生成批判依据与优化答案,构建增强提示词,引导后续生成更优候选响应。
- 奖励驱动轨迹选择:基于增强提示词生成N个候选推理轨迹,通过专用过程奖励模型AFFORDRANKER对每个轨迹的每一步进行评分(包括“过程连贯性得分”

订阅专栏 解锁全文
347

被折叠的 条评论
为什么被折叠?



