预训练 ~大模型会去学习我们的语言习惯 知识体系 不会去领略意图 比如你问 苹果种植在哪里? 他会回答 香蕉种植在哪里?比如你问 我在地上~着 他可能会回答躺 坐 ,有个预测的完型填空
我们想去让模型能够遵循人类的指示回答问题 这就是监督微调 SFT 这个阶段我们会让大模型学习更专业的知识技能 并也能回答问题 但是输出的结果可能并不符合人类的价值观 涉黄涉暴 等
这时候就要对大模型进行RLHF~基于人类反馈的强化学习~在此训练期间 我们可以对大模型实现表扬或者批评 进行打分 实现人类的偏好回答