大模型到底在对齐什么?为什么需要对齐

感觉大模型出来以后,各种名词层出不穷,有时候真让人感到困惑。就拿“对齐”这个词来说吧,什么叫对齐?为什么要对齐?跟谁对齐?要对齐什么?怎么对齐?夺命五连问。以下内容是我自己基于一些公认的说法理解整理的,供参考。

1. 什么是对齐?为什么要对齐?跟谁对齐?

大模型对齐指的是将大模型的行为规范与人类群体的价值观、意图及场景规范保持一致的过程。

本质是在模型能力与人类期望之间建立可靠映射。

所以,是大模型是在跟人类的一些“偏好”对齐。为什么需要对齐?显而易见,刚训练出来的大模型落地解决问题的时候不符合人类预期,所以需要对齐。

2. 怎么对齐?这很重要

        上面提到的三种对齐维度:价值观、意图、场景。概况了所有大模型使用时候可能会遇到的问题(总结这个的人真的很厉害)。其中价值观的对齐是我们经常说到的与大模型安全相关的对齐,是大模型发布前最重要的内容,来防止大模型被诱导生成有害内容意图对齐是用于发现用户的潜在需求的,这个能力对于通用大模型来说非常重要,直接体现了是不是“智能”。最后和场景方面的对齐一般是与具体应用场景有关的,广义上应该包含大模型在垂直领域的应用

        说到这里我们其实就明白该如何实现对齐了,本质上就是根据具体应用场景和目标进行知识注入。就是我们经常会用到的那些SFT、高效微调、提示词工程、RAG、DPO、PPO、RLHF、GRPO。本质上都是来做对齐用的,只不过我们在落地的时候,很少这么学究式的叫(这是我自己的想法,仅供参考,可能不严谨)。简单总结一下:

维度对齐内容实现方式数据集构建方法典型对齐场景特别备注
价值观对齐确保输出符合伦理、法律及社会规范(如无害性、公平性、真实性)• RL-CAI(宪法AI+强化学习)
• 安全微调(Safe-Tuning)
• 内在奖励模型
• 宪法规则库:基于中国《网络安全法》《生成式AI服务管理暂行办法》等法规条文构建(确保本地合规)
• 对抗样本:越狱攻击案例(如语义转换攻击违法请求)
• 多文化伦理标注:本土化案例
• 拒绝违法请求(如黑客教程)
• 消除歧视性表述
• 抵制虚假信息传播
冷启动方案:
- 规则引擎预过滤(关键词阻断)
- 合成数据填充长尾场景(注意合成数据可能导致偏差)
风险: 过度安全导致拒绝合理请求
意图对齐理解用户潜在需求而非字面指令(如识别“快速减肥”背后的健康诉求)• DPO(直接偏好优化)
• 逆强化学习(IRL)
• 思维链引导的微调
• 意图链标注:表面指令 → 用户画像 → 真实需求(例:用户问“推荐股票” → 身份推断为风险敏感群体 → 需求为低风险理财;添加“群体”以强调多样性)
• 冲突样本:合法表面请求 + 潜在违规意图(如试探洗钱技巧)
• 多轮对话重构:拆解隐式需求演进逻辑
• 金融咨询(识别投资风险承受力)
• 心理支持(区分倾诉与求助)
• 教育辅导(解析知识盲点)
抑制过度泛化:
- DPO负样本:合理建议 vs 越界推论
效率优势:
- DPO训练速度通常比RLHF显著更快
场景对齐适配垂直领域规范与角色设定(如医生需专业严谨,客服需高效解决)• SFT + 领域术语注入
• RAG + 动态知识校准
• 混合策略(PPO+宪法规则)
• 场景-行为映射库:角色话术模板(如律师必须引用法条编号)
• 领域规则集:医疗禁忌(避免诊断结论)、金融合规话术
• 多模态指令对:文本+图像/音频的复合指令(如“根据CT片描述病灶”)
• 医疗咨询(分诊建议 vs 确诊;避免诊断以符合法规)
• 法律助手(法条精准索引)
• 跨模态应用(图文分析、时序预测)
动态调和机制:
- 当用户身份为“患者”且知识类型为“病理”时,启用比喻解释(改为自然语言描述)
领域冲突: 专业性与通俗性平衡需定制规则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值