感觉大模型出来以后,各种名词层出不穷,有时候真让人感到困惑。就拿“对齐”这个词来说吧,什么叫对齐?为什么要对齐?跟谁对齐?要对齐什么?怎么对齐?夺命五连问。以下内容是我自己基于一些公认的说法理解整理的,供参考。
1. 什么是对齐?为什么要对齐?跟谁对齐?
大模型对齐指的是将大模型的行为规范与人类群体的价值观、意图及场景规范保持一致的过程。
本质是在模型能力与人类期望之间建立可靠映射。
所以,是大模型是在跟人类的一些“偏好”对齐。为什么需要对齐?显而易见,刚训练出来的大模型落地解决问题的时候不符合人类预期,所以需要对齐。
2. 怎么对齐?这很重要
上面提到的三种对齐维度:价值观、意图、场景。概况了所有大模型使用时候可能会遇到的问题(总结这个的人真的很厉害)。其中价值观的对齐是我们经常说到的与大模型安全相关的对齐,是大模型发布前最重要的内容,来防止大模型被诱导生成有害内容。意图对齐是用于发现用户的潜在需求的,这个能力对于通用大模型来说非常重要,直接体现了是不是“智能”。最后和场景方面的对齐一般是与具体应用场景有关的,广义上应该包含大模型在垂直领域的应用。
说到这里我们其实就明白该如何实现对齐了,本质上就是根据具体应用场景和目标进行知识注入。就是我们经常会用到的那些SFT、高效微调、提示词工程、RAG、DPO、PPO、RLHF、GRPO。本质上都是来做对齐用的,只不过我们在落地的时候,很少这么学究式的叫(这是我自己的想法,仅供参考,可能不严谨)。简单总结一下:
维度 | 对齐内容 | 实现方式 | 数据集构建方法 | 典型对齐场景 | 特别备注 |
---|---|---|---|---|---|
价值观对齐 | 确保输出符合伦理、法律及社会规范(如无害性、公平性、真实性) | • RL-CAI(宪法AI+强化学习) • 安全微调(Safe-Tuning) • 内在奖励模型 | • 宪法规则库:基于中国《网络安全法》《生成式AI服务管理暂行办法》等法规条文构建(确保本地合规) • 对抗样本:越狱攻击案例(如语义转换攻击违法请求) • 多文化伦理标注:本土化案例 | • 拒绝违法请求(如黑客教程) • 消除歧视性表述 • 抵制虚假信息传播 | 冷启动方案: - 规则引擎预过滤(关键词阻断) - 合成数据填充长尾场景(注意合成数据可能导致偏差) 风险: 过度安全导致拒绝合理请求 |
意图对齐 | 理解用户潜在需求而非字面指令(如识别“快速减肥”背后的健康诉求) | • DPO(直接偏好优化) • 逆强化学习(IRL) • 思维链引导的微调 | • 意图链标注:表面指令 → 用户画像 → 真实需求(例:用户问“推荐股票” → 身份推断为风险敏感群体 → 需求为低风险理财;添加“群体”以强调多样性) • 冲突样本:合法表面请求 + 潜在违规意图(如试探洗钱技巧) • 多轮对话重构:拆解隐式需求演进逻辑 | • 金融咨询(识别投资风险承受力) • 心理支持(区分倾诉与求助) • 教育辅导(解析知识盲点) | 抑制过度泛化: - DPO负样本:合理建议 vs 越界推论 效率优势: - DPO训练速度通常比RLHF显著更快 |
场景对齐 | 适配垂直领域规范与角色设定(如医生需专业严谨,客服需高效解决) | • SFT + 领域术语注入 • RAG + 动态知识校准 • 混合策略(PPO+宪法规则) | • 场景-行为映射库:角色话术模板(如律师必须引用法条编号) • 领域规则集:医疗禁忌(避免诊断结论)、金融合规话术 • 多模态指令对:文本+图像/音频的复合指令(如“根据CT片描述病灶”) | • 医疗咨询(分诊建议 vs 确诊;避免诊断以符合法规) • 法律助手(法条精准索引) • 跨模态应用(图文分析、时序预测) | 动态调和机制: - 当用户身份为“患者”且知识类型为“病理”时,启用比喻解释(改为自然语言描述) 领域冲突: 专业性与通俗性平衡需定制规则 |