26、深入探索大语言模型

深入探索大语言模型

大语言模型(LLM)训练通常会使用梯度裁剪技术,以防止梯度爆炸问题。以下是两种常见的梯度裁剪方式:
- 按值裁剪 :如果梯度向量的范数 |g| 大于等于 max_threshold 或者小于等于 min_threshold ,则将梯度 g 裁剪为相应的阈值。
- 按范数裁剪 :如果梯度向量的范数 |g| 大于等于 threshold ,则将梯度 g 调整为 threshold * g/|g|

基于人类反馈的强化学习(RLHF)微调

预训练的大语言模型可能会出现一些不良行为,如编造事实、生成有偏见或有毒的文本,或者不遵循用户指令。为了解决这些问题,可以使用基于人类反馈的强化学习(RLHF)技术对模型进行微调,使其更好地与人类价值观保持一致。RLHF 过程主要包括以下三个步骤:
1. 监督式微调(SFT) :使用人工标注员创建 [提示: 响应] 样本数据集,用于微调预训练的大语言模型。
2. 奖励模型(RM)训练 :使用微调后的大语言模型为每个提示生成多个响应,然后由人工标注员根据响应的适用性对其进行评分和排序。这些提示和排序后的响应构成新的数据集,用于训练奖励模型。
3. 使用强化学习和近端策略优

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值