1. 定义与背景
大模型(Large Language Models, LLMs) 是基于深度学习的自然语言处理(NLP)模型,参数规模通常在亿级到万亿级(如GPT-3有1750亿参数)。其核心思想是通过海量数据和计算资源进行预训练,学习通用的语言表示能力,再通过微调适配下游任务。
2. 核心技术基础
(1)Transformer架构
- 自注意力机制(Self-Attention):捕捉序列中词与词之间的依赖关系,通过计算权重动态聚合上下文信息。
- 多头注意力(Multi-Head Attention):并行多个注意力头,学习不同维度的语义特征。
- 位置编码(Positional Encoding):为输入序列添加位置信息,弥补Transformer缺乏时序建模的缺陷。
(2)预训练与微调
- 预训练任务:
- 掩码语言建模(MLM):随机遮盖输入词,模型预测被遮盖的词(如BERT)。
- 自回归语言建模:根据上文预测下一个词(如GPT系列)。
- 微调(Fine-tuning):在预训练模型基础上,用领域数据调整参数以适配特定任务(如文本分类、问答)。
(3)大规模数据与计算
- 训练数据:通常使用TB级文本(如书籍、网页、代码),需清洗过滤噪声。
- 分布式训练:使用多GPU/TPU集群,结合数据并行(Data Parallelism)、模型并行(Model Parallelism)和流水线并行(Pipeline Parallelism)加速训练。
(4)模型扩展法则(Scaling Laws)
- 模型性能随参数规模、数据量和计算量增加而提升,但需满足三者平衡(如Chinchilla定律建议数据与参数同步增长)。
3. 关键技术细节
- 参数高效微调(Parameter-Efficient Fine-tuning, PEFT):
- LoRA(Low-Rank Adaptation):通过低秩矩阵调整代替全参数更新。
- Prompt Tuning:学习软提示(Soft Prompts)引导模型输出。
- 上下文学习(In-Context Learning):无需微调,通过输入示例(Few-shot)直接生成结果。
- Zero-shot与Few-shot学习:利用预训练知识直接完成任务,减少标注依赖。
4. 挑战与局限性
- 计算成本:训练万亿参数模型需数百万美元算力。
- 偏见与安全性:数据中的偏见可能导致模型输出有害内容。
- 推理效率:大模型推理延迟高,需模型压缩(如量化、蒸馏)或硬件优化。
- 可解释性:黑箱模型决策逻辑难以解释。
5. 总结笔记(Key Takeaways)
模块 | 核心要点 |
---|---|
架构 | Transformer为基础,自注意力机制解决长程依赖,位置编码保留序列信息。 |
训练范式 | 预训练+微调:MLM/自回归任务学习通用表示,下游任务适配。 |
扩展性 | 参数、数据、计算同步扩展(Scaling Laws),但需平衡成本与性能。 |
高效适配 | LoRA、Prompt Tuning等技术降低微调成本。 |
应用场景 | 文本生成、对话系统、代码补全、知识问答等。 |
挑战 | 算力需求高、伦理风险、推理延迟、可解释性差。 |
未来方向 | 多模态大模型、绿色AI(降低能耗)、开源轻量化、安全对齐技术(如RLHF)。 |
6. 典型模型示例
- GPT系列(OpenAI):自回归模型,强于生成任务。
- BERT(Google):双向编码器,擅长理解类任务。
- T5(Google):统一文本到文本框架。
- PaLM(Google):万亿参数,多任务泛化能力强。