LLM奖励模型
文章平均质量分 82
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Verifier 和 Reward Model 的区别
Verifier 可以是一个独立的模型或模块,也可以是一个简单的规则检查器。Reward Model 通常是一个独立的模型,用于对模型的输出进行评分。原创 2025-02-07 14:44:57 · 774 阅读 · 0 评论 -
奖励模型中的尺度扩展定律和奖励劫持
最近在考古一些LLM的经典老论文,其中有一篇是OpenAI于ICML 2023年发表的文章,讨论了在奖励模型(Reward Model)中的尺度扩展规律(Scaling Laws),也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...原创 2025-02-06 12:25:34 · 1153 阅读 · 0 评论
分享