作者 | 黄哲威 hzwer 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/690824731
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
我面试过很多深度学习算法岗候选人,近一年转到阶跃星辰做大模型对齐,
最近招人很多,迫切先给自己训练一下面试题
我从知乎精华回答里挑一些问题,并给出自己的民科参考回答
参考素材:花甘者浅狐:大模型面试八股,一蓑烟雨:大模型强化学习面经
大模型微调相关:
大模型微调的时候,要关注什么超参数,如何选择优化?
预训练/微调训练 loss 炸掉了,如何解决?
微调过程和结束时,应该看什么评测指标?
微调的训练集的格式?
如何配比一堆微调训练集?
有什么轻量级微调的经验(比如 lora)?
如何避免 / 缓解微调时的过拟合?
如何快速评估和提升大模型中数据集的质量?
微调以后发现模型比预训练还差,可能的情况是?
评测微调过程中间结果,有些指标出乎意料的低,可能是为什么?
假设要做金融(举个例子)领域,怎么覆盖尽可能全的金融计算公式?
微调小模型在哪些方面效果会比大模型差很多?
为什么很多国产模型宣称 GPT4 能力?
模型输出重复和幻觉如何微调解决?
反向做微调修 badcase 的方案?
后文是我的回答,风格比较意识流
我的基本态度 1. 本来炼丹就是炼丹,大模型一般人做不起多少实验,科学结论就更少了,基本人云亦云 2. 既然是找工作,就要有力大砖飞的觉悟 3. 我尽力输出我训练100B+模型获得的认识
大模型微调的时候,要关注什么超参数,如何选择优化?
一句话:微调阶段基本没人调超参数
基本可以参照很多论文来选择,微调是个预训练的简化版本,比如参照预训练的工作 OPT 来选,或者直接参照做微调的论文 Deepseek Report,一般框架都选好了
真要答的话:有多少显存就开多大 batchsize,context length 看需求,一般 2048 往上吧,学习率衰减无脑 cosine 最好调试,learning rate 从论文里抄一个(按 batchsize 大小缩放一下);clip grad 设一个比较稳 0.3 吧,weight decay 有人用 0.1 也有用 0 的;其它更没什么可调了
预训练/微调训练 loss 炸掉了,如何解决?
一句话:预训练魔改重启,微调阶段没多少数据量都能炸,有点离谱吧
预训练炸掉的原因非常难监测,基本上就是一堆统计量某一两个飞了,可以加载前一个 ckpt 调学习率或加约束项尝试渡劫
赶紧 git clone 一个好的框架吧求求了,设小一点学习率再 clip grad 都不知道怎么炸
人家预训练容易炸是因为几千卡,向很多工程问题妥协才引入了一些训练不稳定的问题,就这样也几天才飞一次 loss
微调过程和结束时,应该看什么评测指标?
一句话:KPI 是什么就看什么,主观不好评价的就雇标注员
客观指标我推荐看 GSM8K,MMLU 和 BBH,关心 coding 可以看 Humaneval,能自己建个私有的保证没漏题的榜肯定更好
主观效果没有标注员自己攒个几十条每次扫一眼看看
微调的训练集的格式?
一句话:其实无所谓,看线上怎么用
常见的两种是 "System: Human: Assistant:" 和 "Instruct: Input: Output:" ,前者越来越流行了
多轮的时候就 "System: Human: Assistant: Human: Assistant: ...",难道用的模型不支持这种形式吗?那得看看 包包大人:大模型微调样本构造trick
如何配比一堆微调训练集?
一句话:含错误越少的数据可以占比越高
比如专家写的数据基本多多益善,编程和数学数据训练副作用都还比较小,爬虫爬的题库或者 chatGPT 造的数据比较容易有问题
实践时建议用 orca 这种数据集打个底,多样性不错,容易保持指令遵循能力,又是大模型风格的回答
警惕一些风格怪异的数据,比如说 system prompt 没有任何解释,但是回答却都通过写代码来解题(POT),这种训练完以后模型可能默认行为改变
有什么轻量级微调的经验(比如 lora)?
一句话:别用轻量级微调,租点卡训全参数吧
我知道 lora 似乎在垂域上的效果还行,但都工业界的人了,能不能花点钱租卡,只盯着几千条数据规模实验的话能不能不招人直接外包
反正我宁愿费卡也不愿意引入这种容易锁上限和引入新的问题的技术,我相信可训练参数量大了没坏处
本来大模型就是一把梭的实验风格,把卡省下来然后呢?
正经技术:CW不要無聊的風格:当红炸子鸡 LoRA,是当代微调 LLMs 的正确姿势?
如何避免 / 缓解微调时的过拟合?
一句话:数据去重后选大模型,只训练一个 epoch
不要小瞧大模型,只有孱弱到 7B 13B 的模型才需要多个 epoch,才要想着过拟合的问题!70B 一般也只有在 coding/math 这种数据 2 epoch,而且涨点有限。如果卡真的那么多就选更大的模型!
一个 epoch 也能过拟合?那就不要堆格式全都一样的数据,做点高质量的。再说一遍,把 orca 加进去打底,LIMA,no_robot 也好啊。
实在非得上小模型,花点钱加数据量不行吗?
训 MOE 模组?那是我僭越了,MOE 多 epoch 加 dropout 还是好使的
如何快速评估和提升大模型中数据集的质量?
一句话:肉眼抽样看,和 GPT4 的回答对比感受一下哪个好,不如 GPT4 的话调 API 生成数据
训练完有问题再反查,比如学会了某种机械的答题格式,那就把该类数据清洗或者加增广;比如模型生成了怪东西,就把相关污染找出来
微调以后发现模型比预训练还差,可能的情况是?
一句话:抄个成熟方案,做增量实验,实在不行在别人微调完的基础上再微调
尽量训练末期降低学习率,前文说了用 cosine 不亏
监测微调过程中间结果,尽早发现问题
有极少的任务,比如创作生成类任务,可能微调完模型就是创造力缺乏,感觉遏制了模型的天性
除此之外就只能是 bug 或者数据投毒了
评测微调过程中间结果,有些指标出乎意料的低,为什么?
一句话:如果过一会儿就好了,说明在有些评测集上回答格式崩了
比如 GSM8K 可能要求以 “The answer is: ”回答,模型有的时候可能不完全听指令,这时候最好微调带一点相关训练集
loss 炸了跳转第 3 条
假设要做金融(举个例子)领域,怎么覆盖尽可能全的金融计算公式?
一句话:学知识交给继续预训练,微调就是图个激发
知识量靠微调来灌是不行的,一种数据量太大就从通用模型变专用模型了,本来微调对模型的改动相对预训练就是很微弱的
微调小模型在哪些方面效果会比大模型差很多?
一句话:硬核任务体现大模型优势,大模型 COT 也更强
数学和代码是一般模型和 GPT4 最大的差距所在,我还发现模型越大,似乎天然越理解人类价值观
为什么很多国产模型宣称 GPT4 能力?
一句话:防泄题/作弊非常重要,通用和垂域分开看
因为目前几B几十B参数量下,模型记忆力离谱的好,局部泛化能力很强,所以有些小模型能在某些特定榜单刷的巨高,还有很多榜 GPT4 不高但是国产模型可厉害
说不定和测试集很像的东西进了训练集
举个例子,MMLU(英文) 和 CEval(中文) 是比较相似的,都是学科选择题,但是如果后者很高前者不行,那说明喂了很多中文做题数据;还有比如说模型数学题 MATH,GSM8K 刷的巨好,但是看 MMLU 和 CEval 的数学选择题却又很差,基本上是有意或无意地泄题了
训了一个70B模型,结果指标被人家3B、7B模型打爆,这种指标绕着走
如果专精小领域,那数据为王,GPT4 不会的领域还很多
模型输出重复和幻觉如何微调解决?
一句话:修 badcase 还得看强化学习
合成数据放多了微调可能也会提高重复,但是调数据不好压下去,强化学习不香吗
幻觉也是可以造负样本来修
反向做微调修 badcase 的方案?
一句话:得不偿失,还是靠强化学习
虽然这样处理负样本确实会有效果,但是很容易把模型能力搞废
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵