【注】本篇内容均来自于:【九天Hector的个人空间-哔哩哔哩】 https://b23.tv/md9rjFS,如侵删。
1. 如何评估大模型微调效果?
评估大模型的微调效果,通常需要结合人工评估与自动化评估两条路径。
人工评估的核心,是让专业人员或目标用户直接去体检模型的输出效果,通过打分、对比和主观判断来衡量模型是否更贴近人类偏好。比如在法律场景中,可以邀请律师对模型的答复进行专业性和准确性评分;在金融场景中,则由分析师判断回答是否具备使用价值。
人工评估的优势在于它能真实反映“模型回答是否符合与其场景”,而不是单纯依赖指标。
除了人工评估外,我们往往还需要依靠数据集驱动的系统化评估,来评估模型的数学、推理、代码、Agent性能。常见做法是构建一套独立的验证数据集,在微调前后对比模型的各项指标是否发生变化。
例如想要验证模型的数学和推理方面的性能,可以使用AIME、GPQA等数据集进行评估;如果想要验证模型的代码能力,可以使用SWE-Bench数据集进行评估;而如果希望验证模型指令跟随或者Function calling能力,则可以用IFEval数据集。
总的来说,只有把人工评估的主观体验与这些客观数据指标结合起来,才能真正全面、可靠地判断微调是否达到效果。
2. 在人工评估微调结果的过程中,如何尽量避免偏差?
人工评估不可避免会受到主观因素的影响,因此要尽量通过多评审员+盲测来降低偏差。
多评审员能平衡个体差异,取平均或投票结果更可靠;盲测可以避免因对模型身份的预期而影响判断。
此外,还可以制定统一的评分标准和示例,保证不同评审员之间的尺度一致。

最低0.47元/天 解锁文章
451

被折叠的 条评论
为什么被折叠?



