【AI开发】大模型训练技术简介
温桂阳 研发效能方法论 2025年05月11日 00:01 中国香港 1人
在人工智能蓬勃发展的当下,大语言模型(LLM)成为了众多应用的核心驱动力。从智能聊天机器人到复杂的内容生成系统,LLM 的卓越表现令人瞩目。而这背后,大模型的训练过程充满了奥秘。本文将深入探讨 LLM 训练的各个方面,带您揭开其神秘面纱。
一、大模型训练的步骤概述
从整体上看,训练LLM主要包括两个关键阶段:预训练(Pre-training)后训练(Post-training):微调、RL和RLHF。
预训练与微调
大模型的训练通常分为两个阶段:预训练(Pre-training)和微调(Fine-tuning)。
预训练:在预训练阶段,模型通过海量的无标签数据进行自监督学习。比如,BERT 使用了掩码语言模型(Masked Language Model)任务,它会随机掩盖一些词,然后让模型去预测这些被掩盖的词是什么。通过这种方式,模型学会了丰富的语义表示。
微调:预训练后的模型会在特定的任务上进行微调。例如,在情感分析、机器翻译或文本分类任务上使用带标签的数据进行训练。这一步骤使得预训练的大模型能够适应各种下游任务。

上述流程整合了预训练、微调、RLHF等核心阶段,适用于自然语言处理和多模态大模型:
1.数据准备
- 数据收集:根据目标领域收集海量无标注数据(预训练)或少量标注数据(微调)。
- 清洗与增强:去除噪声、重复项,进行分词/标准化(文本)或裁剪/旋转(图像)。
- 划分数据集:预训练无需标注;微调需划分训练集/验证集/测试集(比例通常为8:1:1)。
2.预训练(Pre-training)
模型架构选择:如Transformer(文本)、ViT(图像)或混合架构(多模态)。
训练策略:
-
无监督学习:掩码语言建模(BERT)、自回归生成(GPT)。
-
分布式训练:使用GPU/TPU集群加速,如Megatron-LM框架。
3.任务适配:微调(Fine-tuning)
方法选择:
全量微调:调整所有参数,适合数据充足场景(如金融风控)。
参数高效微调(PEFT):
- LoRA:低秩矩阵分解,减少90%训练参数。
- Adapter:插入小型网络模块,保持原模型权重。
- 优化目标:最小化任务损失函数(如交叉熵损失)。
4.强化学习优化(RL/RLHF)
奖励模型训练:用人类标注的偏好数据(如答案质量排序)训练奖励模型(Reward Model)。
策略优化:
- RL:通过环境反馈(如游戏得分)调整策略,无需人类干预。
- RLHF:结合奖励模型和PPO算法优化模型输出,例如提升对话流畅度。
关键步骤:KL散度惩罚防止模型偏离原始分布。
5.评估与调优
指标选择:准确率、BLEU(文本生成)、ROUGE(摘要)或人工评估(复杂任务)。
过拟合处理:
-
正则化:Dropout、权重衰减。
-
早停法(Early Stopping)。
6.部署与监控
- 模型压缩:量化(INT8/INT4)、剪枝,降低推理成本。
- 持续学习:根据用户反馈(如日志分析)进行在线微调。
二、大模型微调的主要技术
1. 按微调参数规模划分
1.1. 全参微调(Full Parameter Fine-Tuning,FPFT)
用预训练权重作为初始化权重,在特定数据集上继续训练,全部参数都更新。
1.2. 低参微调(Parameter Efficient Fine-Tuning,PEFT)
用更少的计算资源完成参数的更新,只更新部分参数,或者通过对参数进行某种结构化约束,例如稀疏化或低秩近似解来降低微调的参数量。最小化微调网络模型中的参数数量和降低计算复杂度来提高预训练模型在新任务上的性能,从而缓解大型预训练模型的训练成本。使得即使计算资源受限,也可以利用预训练模型的知识来迅速适应新任务,实现高效的迁移学习 Transfer Learning。
2. 按训练流程划分
LLM训练流程划分(Pre-Training、Fine-Tuning、Alignment)2.1. 上下文学习(In-Context learning,ICL) ICL区别于普通微调 Fine-Tuning,不对 LLMs 执行任何的微调,直接将模型的输入输出拼接起来作为一个prompt,引导模型根据输入的数据结构demo,给出任务的预测结果。 ICL能够基于无监督学习的基础上取得更好模型效果,并且不需要根据特定的任务重新微调 Fine-Tuning 更新模型参数,避免不同任务要重新进行真正的微调。 另外,提示微调(Prompt Tuning)属于ICL的方式之一。2.2. 有监督微调(Supervised Fine-Tuning,SFT)
预训练-->有监督微调 在预训练基础上,使用标记数据对预训练模型进行微调的过程,以便模型能够更好地执行特定任务。2.3. 基于人类反馈的强化学习(RLHF)(1)预训练模型的有监督微调 收集提示词集合,并要求 Label 人员写出高质量的答案,然后使用该数据集以监督的方式微调预训练模型。(2)创建奖励模型 对于每个提示 Prompt,要求微调后的LLMs 生成多个回复,再由标注人员根据真实的偏好对所有回复进行排序,也可以称为Alignment。接着训练奖励模型 RM 来学习人类的偏好,用于后续优化。(3)PPO微调 使用强化学习的算法(如PPO,proximal policy optimization),根据奖励模型 RM 提供的奖励分数,对SFT模型进一步优化用于后续的推理(文字生成)。
28万+

被折叠的 条评论
为什么被折叠?



