深入探索大语言模型
大语言模型(LLM)训练通常会使用梯度裁剪技术,以防止梯度爆炸问题。以下是两种常见的梯度裁剪方式:
- 按值裁剪 :如果梯度向量的范数 |g| 大于等于 max_threshold 或者小于等于 min_threshold ,则将梯度 g 裁剪为相应的阈值。
- 按范数裁剪 :如果梯度向量的范数 |g| 大于等于 threshold ,则将梯度 g 调整为 threshold * g/|g| 。
基于人类反馈的强化学习(RLHF)微调
预训练的大语言模型可能会出现一些不良行为,如编造事实、生成有偏见或有毒的文本,或者不遵循用户指令。为了解决这些问题,可以使用基于人类反馈的强化学习(RLHF)技术对模型进行微调,使其更好地与人类价值观保持一致。RLHF 过程主要包括以下三个步骤:
1. 监督式微调(SFT) :使用人工标注员创建 [提示: 响应] 样本数据集,用于微调预训练的大语言模型。
2. 奖励模型(RM)训练 :使用微调后的大语言模型为每个提示生成多个响应,然后由人工标注员根据响应的适用性对其进行评分和排序。这些提示和排序后的响应构成新的数据集,用于训练奖励模型。
3. 使用强化学习和近端策略优
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



