ChatGPT训练三阶段揭秘:RLHF技术如何让AI对齐人类价值观?
ChatGPT 大模型训练技术 RLHF
ChatGPT 大模型训练核心技术
ChatGPT 的成功并非一蹴而就,其核心技术可拆解为三大阶段:万亿级 Token 预训练语言模型、有监督指令微调(SFT) 和 基于人类反馈的强化学习(RLHF)。这三个阶段层层递进,最终实现模型与人类价值观的对齐(Alignment)。
阶段一:万亿级 Token 预训练语言模型
ChatGPT 的基座模型基于 GPT-3.5 架构,通过海量无标注文本进行自监督预训练。核心特征包括:
- 数据规模:
- 训练语料覆盖书籍、网页、代码、学术论文等多领域文本,总量超 1T Token。
- 数据清洗策略包括去重、去噪、去隐私信息,并采用 BPE(Byte-Pair Encoding) 分词算法。
- 模型架构:
- 使用 Transformer Decoder 架构,堆叠