【大模型面试宝典之微调篇】(一)

【注】本篇内容均来自于:【九天Hector的个人空间-哔哩哔哩】 https://b23.tv/md9rjFS,如侵删。

1. 如何评估大模型微调效果?

评估大模型的微调效果,通常需要结合人工评估与自动化评估两条路径。

人工评估的核心,是让专业人员或目标用户直接去体检模型的输出效果,通过打分、对比和主观判断来衡量模型是否更贴近人类偏好。比如在法律场景中,可以邀请律师对模型的答复进行专业性和准确性评分;在金融场景中,则由分析师判断回答是否具备使用价值。

人工评估的优势在于它能真实反映“模型回答是否符合与其场景”,而不是单纯依赖指标。

除了人工评估外,我们往往还需要依靠数据集驱动的系统化评估,来评估模型的数学、推理、代码、Agent性能。常见做法是构建一套独立的验证数据集,在微调前后对比模型的各项指标是否发生变化。

例如想要验证模型的数学和推理方面的性能,可以使用AIME、GPQA等数据集进行评估;如果想要验证模型的代码能力,可以使用SWE-Bench数据集进行评估;而如果希望验证模型指令跟随或者Function calling能力,则可以用IFEval数据集。

总的来说,只有把人工评估的主观体验与这些客观数据指标结合起来,才能真正全面、可靠地判断微调是否达到效果。

2. 在人工评估微调结果的过程中,如何尽量避免偏差?

人工评估不可避免会受到主观因素的影响,因此要尽量通过多评审员+盲测来降低偏差。

多评审员能平衡个体差异,取平均或投票结果更可靠;盲测可以避免因对模型身份的预期而影响判断。

此外,还可以制定统一的评分标准和示例,保证不同评审员之间的尺度一致。

3. 如何构建用于评估微调效果的验证集或测试集?

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李AI飞刀^_^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值