编者按:
人工智能正以前所未有的渗透力重塑生产与生活图景。作为国内领先的数据智能科技企业,和鲸科技自 2015 年成立以来,深耕人工智能与数据科学,历经十年发展,已在气象、教育、医疗、航空航天、金融、通信、能源、零售等领域,与众多高校、科研机构、企业等单位展开了深度合作。
大模型技术正掀起新一轮产业变革浪潮。在此背景下,和鲸科技 AI Infra 架构总监朱天琦基于在大模型业务领域的丰富经验,解析大模型在实际应用中的实践案例与优化路径。
分享嘉宾
朱天琦 和鲸科技 AI Infra 架构总监
全面负责和鲸科技架构组相关工作,持续推动公司 AI Infra 基础设施的构建,特别在大模型平台与分布式系统领域取得了显著成果。
本篇为分享下篇,聚焦大模型微调与蒸馏技术的实践指南。
模型微调实践
常见的微调技术
1. SFT
SFT通俗的解释就是“驾校学车”,普通教练不告诉你原理,但是他会反复强调,'在这个楼门口前面100m有个学校考试区,给我踩油门','前面要左转了,还不打转向灯'。
回到模型的例子,SFT本质上就是:
-
收集大量的“人类提问-理想回答”的示范
-
让模型反复学习这些示范
-
直到模型能够模仿出类似的回答方式
由于SFT只教会模型“照着样子做”,但不一定能让模型理解什么回答“更好”、什么回答“更差”,这就是为什么在SFT之后,通常还需要DPO等微调技术进一步调整模型的输出质量,回到驾校的例子上,很多时候通过教练的SFT微调(训斥),你学会了在指定的考试线路上开车,但是遇到复杂路况,或者平时开车你就又不会开车了。
简单总结一下SFT的局限性:
-
质量评判缺失:SFT只教会模型"按图索骥",但没有教会它判断哪种回答更好、哪种更差。模型只知道"这样回答",不知道"为什么这样回答更好"。
-
数据质量依赖:SFT严重依赖示范数据的质量,如果示范数据有偏差或质量不一,模型会继承这些问题。
-
回答多样性处理不足:对于同一问题可能有多种合理回答,但SFT通常只提供一种"标准答案",限制了模型生成多样化高质量回答的能力。
-
过拟合风险:模型可能会死记硬背训练数据,而不是真正理解回答的本质。
2. DPO
DPO通俗的解释就是“高级教练教你学车”,他不再只是告诉你如何操作,而不是叫你判断好坏。想象一下,他会给你展示两种不同的驾驶方式,然后告诉你,“你看把车开在路中央,相比靠左或者靠右更不容易压线。”(方法A比方法B更好。)
回到模型的例子上,DPO的本质上就是:
-
收集大量的“好回答-差回答”对比样本
-
让模型学习什么样的回答更受人喜欢
-
直到模型能够自己判断并生成更高质量的回答
由于DPO引入了偏好比较,模型不仅学会了“怎么回答”,还学会了“怎么更好的回答”。回到驾驶的例子上,通过DPO训练,你不只是学会了如何通过考试,而是理解了什么是真正的好驾驶-安全、平稳、冷静、专注,这样你在任何模式路况下都能做出更好的判断。
简单总结一下DPO的优势:
-
建立质量判断:DPO通过对比学习建立了模型对回答质量的判断能力,使模型能够自主生成更高质量的回答。
-
学习潜在规则:不再是简单模仿单个示例,而是理解人类偏好的一般原则,形成了通用的质量标准。
-
回答多样性增强:模型不再局限于单一"标准答案",而是能根据学到的偏好原则生成多种高质量回答。
-
减少过拟合:通过学习判断标准而非具体示例,减少了模型对训练数据的死记硬背,提高了泛化能力。
DPO依旧存在一些局限性:
1)静态偏好数据问题
-
DPO使用的是预先收集的静态偏好数据,无法适应用户偏好的实时变化
-
一旦模型部署,很难对新出现的问题场景做出调整
2)分布偏移挑战
-
训练数据与实际用例之间存在分布差异
-
模型在训练中看到的偏好数据可能与实际部署环境中的用户输入有很大不同
3)偏好数据质量与一致性
-
人类标注者之间常存在偏好不一致的问题
-
收集高质量、一致的偏好数据成本高且困难
4)回答多样性与创造性的平衡
-
过度优化偏好可能导致模型回答趋于保守和公式化
-
难以平衡符合人类偏好和保持生成内容多样性之间的关系
5)长文本生成的偏好学习困难
-
DPO在短回答优化上效果显著,但对长文本的质量控制仍然有限
-
人类很难对长文本进行整体的偏好判断
6)训练不稳定性
-
DPO训练过程中可能出现不稳定现象,导致性能波动
-
超参数选择对最终结果影响较大
7)偏好幻觉问题
-
模型可能会学到表面上符合人类偏好的回答模式,而非真正的内容质量提升
-
形成"讨好评判者"而非提供真正有用信息的倾向
8)迁移能力有限
-
在一个领域学习的偏好不一定能够很好地迁移到其他领域
-
需要为不同应用场景准备不同的偏好数据集
3. Online DPO
Online DPO通俗的解释就是"老司机朋友坐副驾驶",老司机不仅会在考试期间教你开车,还会坐在你实际上路时的副驾驶位置,根据你在各种真实路况下的表现给出即时反馈和指导。
回到模型的例子上,Online DPO本质上就是:
-
在模型实际使用过程中持续收集用户反馈
<

最低0.47元/天 解锁文章
216

被折叠的 条评论
为什么被折叠?



