大模型学习 (Datawhale_Happy-LLM)笔记9: 大语言模型(Large Language Model, LLM)
什么是 LLM(Large Language Model,大语言模型或大型语言模型)
LLM 是一种在预训练语言模型(PLM)基础上发展而来的先进模型,其核心特点是通过大规模参数和海量训练语料实现远超传统模型的语言理解与生成能力。以下从定义、核心能力、特点及训练流程四个方面详细解析:
一、LLM 的定义
LLM 是指参数量通常达到数百亿甚至千亿级,并在数万亿 token 的海量无监督文本上进行预训练的语言模型。其本质是通过“预测下一个 token”的自监督任务(如因果语言模型,CLM)学习语言规律和世界知识,最终具备强大的上下文理解、指令遵循和文本生成能力。
- 与传统 PLM 的区别:
传统 PLM(如 BERT)参数量通常在数十亿以内,训练数据量较小(如 BERT 使用 33 亿 token),而 LLM 参数量普遍超过百亿(如 GPT-3 为 1750 亿参数),训练数据量达到数百亿至数万亿 token,因此能展现出“涌现能力”(见下文)。 - 标志性模型:GPT-3 被认为是首个真正意义上的 LLM,后续的 ChatGPT、LLaMA、Qwen 等均属于这一范畴。
二、LLM 的核心能力
-
涌现能力(Emergent Abilities)
当模型参数和训练数据达到一定规模后,会突然展现出小规模模型不具备的复杂能力,例如逻辑推理、多步任务规划等。这一现象类似“量变引起质变”,是 LLM 区别于传统模型的关键特征。 -
上下文学习(In-Context Learning)
无需对模型进行参数微调,仅通过在输入中提供少量示例或自然语言指令,模型就能理解并执行新任务。例如,给 GPT-4 输入“将‘今天天气好’翻译成英文”,模型可直接输出结果,无需额外训练。 -
指令遵循(Instruction Following)
通过“指令微调”(在多样化指令数据上训练),模型能理解并遵循人类用自然语言描述的任务要求,灵活应对写作、编程、问答等场景。 -
逐步推理(Step-by-Step Reasoning)
借助“思维链(Chain-of-Thought)”提示,模型能拆解复杂问题并分步求解,例如解决数学应用题或逻辑谜题。
这些能力本质是模型与人类意图的 “对齐” 过程:
上下文学习打破了传统 “预训练 - 微调” 的固定流程,通过在输入中嵌入示例,让模型 “即学即用”,本质是模型对人类隐含指令的捕捉。
指令遵循则通过专门的指令微调数据,让模型理解 “人类用自然语言下达的任务”,比如从 “写一封道歉信” 的指令中,精准定位任务目标并生成符合格式和情感的内容。
这种对齐能力让 LLM 从 “被动生成文本” 转变为 “主动响应需求”,是其能广泛应用于聊天、创作、办公等场景的核心原因。
三、LLM 的特点
-
多语言支持:由于训练数据包含多语言文本,LLM 天然具备跨语言处理能力,可处理英语、中文等多种语言(但性能受训练数据中语言占比影响)。
-
长文本处理:支持更长的上下文长度(如 LLaMA 2 支持 4096 token,部分模型可达 128K),并通过旋转位置编码(RoPE)等技术实现对超长篇文本的外推处理。
-
多模态扩展:可通过融合图像编码器等组件扩展为多模态模型(如 GPT-4V),实现图文理解与生成。
-
幻觉问题:存在生成虚假信息的风险(即“幻觉”),这是由于模型依赖统计规律而非真实知识,在医疗、金融等高精度领域需谨慎使用(可通过 RAG 技术缓解)。
四、LLM 的训练流程
LLM 的训练通常分为三个阶段,逐步提升模型能力:
-
预训练(Pretraining)
- 目标:学习语言规律和世界知识。
- 数据:海量无监督文本(如网页、书籍、代码等),规模可达数万亿 token。
- 任务:因果语言模型(CLM),即根据前文预测下一个 token。
- 挑战:需大规模分布式计算资源(如千张 GPU 集群),训练成本极高。
-
有监督微调(SFT,Supervised Fine-Tuning)
- 目标:让模型学会遵循人类指令,输出符合预期的结果。
- 数据:人工标注的“指令-响应”对(如“写一封道歉信”及其参考回复)。
- 任务:仍基于 CLM 建模,但仅计算“响应部分”的损失,忽略“指令部分”的损失。
- 数据处理:SFT 需构建特定格式的训练样本,通常包含 “instruction”(用户指令)、“input”(补充输入,可选)和 “output”(模型应生成的回复)三个部分。同时,为使模型学习到与预训练不同的范式,会设置特定格式,例如 LLaMA 的 SFT 格式为 “### Instruction:\n {{content}}\n\n### Response:\n”,其中 content 为完整指令。
与预训练不同,SFT 并非对所有文本计算损失,而是仅针对模型应生成的 “output” 部分计算损失,“instruction” 和 “input” 部分不参与损失计算,以此引导模型专注于学习根据指令生成正确回复。
此外,为使模型具备多轮对话能力,SFT 阶段会将训练数据构造成多轮对话格式,让模型能够利用历史对话信息生成当前回复。通过 SFT,模型能够从多种类型、风格的指令中获得泛化的指令遵循能力,为后续的人类反馈强化学习(RLHF)奠定基础。
-
人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)
- 目标:使模型输出对齐人类价值观(如安全、有用、无害)。
- 流程:
- 训练“奖励模型(RM)”:通过人类对模型输出的排序数据,学习判断回答质量。
- 强化学习优化:用奖励模型的评分作为反馈,通过 PPO 等算法调整模型参数,提升输出的人类满意度。
五、挑战
“幻觉” 问题(生成虚假信息)和 “长文本处理限制”,反映了 LLM 的核心矛盾:
- 从技术上,模型基于统计规律生成文本,而非真正 “理解”,因此可能编造看似合理却错误的内容;
- 从应用上,长文本处理能力受限于计算资源,而扩展上下文长度又会加剧效率与精度的平衡难题。
目前也有很多研究提供了削弱幻觉的⼀些方法,如 Prompt 里进行限制、通过 RAG(检索增强生成成)来指导生成等,或通过稀疏注意力机制提升长文本处理效率。但都还只能⼀定程度减弱幻觉而无法彻底根除。
六、 总结
LLM 的本质是 “数据与算力堆砌下的智能涌现”,其价值不仅在于性能突破,更在于重塑了人机交互的范式 —— 从 “人适应机器”(如编程)变为 “机器适应人”(如自然语言指令)。但同时,其局限性也提醒我们:LLM 仍是 “基于模式匹配的工具”,而非真正的 “智能体”,未来的发展需要技术优化与伦理规范的双重保障。