流程:
训练Reward模型
训练数据:
相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。
模型:
可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。
不能使用太差的模型,因为Reward模型是“老师”的角色,差老师教不出好学生。
但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。
是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。
生成式模型:
如上,生成是N个token的概率。
Reward模型:




最低0.47元/天 解锁文章
2034

被折叠的 条评论
为什么被折叠?



