大模型的训练

预训练 ~大模型会去学习我们的语言习惯 知识体系 不会去领略意图  比如你问 苹果种植在哪里? 他会回答 香蕉种植在哪里?比如你问 我在地上~着 他可能会回答躺 坐 ,有个预测的完型填空

我们想去让模型能够遵循人类的指示回答问题 这就是监督微调 SFT 这个阶段我们会让大模型学习更专业的知识技能 并也能回答问题 但是输出的结果可能并不符合人类的价值观 涉黄涉暴 等

这时候就要对大模型进行RLHF~基于人类反馈的强化学习~在此训练期间 我们可以对大模型实现表扬或者批评 进行打分 实现人类的偏好回答

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

undefinedJJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值