《生成式 AI》课程第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力_大型语言模型修练史

资料来自李宏毅老师《生成式 AI》课程，如有侵权请通知下线

Introduction to Generative AI 2024 Springhttps://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php

摘要

这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的，共包含十个作业。每个作业都对应一个具体的主题，例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。

接续上一篇博文

《生成式 AI》课程第5講：訓練不了人工智慧？你可以訓練你自己 (下)-优快云博客这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的，共包含十个作业。每个作业都对应一个具体的主题，例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。承接上一讲：《生成式 AI》课程第4講：訓練不了人工智慧？你可以訓練你自己 (中)_生成式人工智能训练-优快云博客这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的，共包含十个作业。每个作业都对应一个具体的主题，例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。https://blog.youkuaiyun.com/chenchihwen/article/details/144005391?spm=1001.2014.3001.5501

大型语言模型修炼史总结

一、模型学习阶段

（一）阶段划分

自我学习，累积实力：通过大量文字资料进行自我学习，积累语言知识和世界知识，如从各种文本中学习文字接龙（生成下一个 token）。
名师指点，发挥潜力：利用高质量数据和优化方法等进一步提升模型能力。
参与实战，打磨技巧：在实际应用场景中不断优化表现。

（二）文字接龙示例

以 “台湾最高的山是哪座？玉山” 为例，语言模型将句子拆解成一连串文字接龙（token）来学习，如依次预测 “玉”“山”“[END]” 等。

（三）机器学习原理

机器学习通过找出数十亿个参数来实现，将未完成句子输入，根据训练数据预测下一个 token，训练过程涉及优化参数，包括超参数设定等，同时算力也是重要因素。
训练可能面临失败（找到的参数不符合训练资料）或过拟合（训练成功但测试失败）等问题，需要通过增加训练资料多样性、调整初始参数等方法来让机器找到更 “合理” 的参数。

二、训练相关要素

（一）训练资料

资料来源与特点
- 任何文字资料理论上都可用于学习文字接龙，如网络上大量文字资料，GPT 系列在早期使用大量书籍等作为训练资料（GPT - 1 使用 7000 本书，GPT - 2 使用 40GB 数据，GPT - 3 使用 580GB 数据及 300B tokens 等）。
- 训练资料可通过自我监督学习获取，且数量巨大，但需要进行资料清理，包括过滤有害内容、去除 HTML 标签、去除 “低品质” 资料和重复资料等，部分模型（如 GPT - 3/The Pile/PaLM）使用 “资料品质” 分类器，且高质量文句会多次重复训练。
资料版权问题：如《纽约时报》起诉 OpenAI 和微软，称数百万篇文章被用于训练聊天机器人，引发了关于训练数据版权的争议。

（二）模型参数与表现

模型参数数量（模型大小）不断增长，从 GPT - 1 的 117M 到 GPT - 2 的 1542M 再到 GPT - 3 的 175B 等，但单纯增大模型规模并不一定能有效提升模型回答问题的能力。
例如，尽管 PaLM 达到 540B 参数规模，但在一些问题回答上仍存在不足，原因是模型虽然从网络资料学习了很多知识，但未被教导如何有效使用这些知识，如同有上乘内功却不知使用方法。

幻灯片 1：大型语言模型修炼史

页面内容：介绍文档主题为大型语言模型修炼史，分为自我学习、名师指点、参与实战三个阶段，背景知识以文字接龙为例阐述模型学习方式，涉及机器学习找参数的挑战及相关概念如超参数、训练与测试等，还提及如何让机器找到合理参数，包括增加训练资料多样性、调整初始参数等，最后探讨模型学习所需文字量、训练资料来源及清理、模型参数与表现等内容。
摘要说明：本页概述大型语言模型修炼的整体框架，通过文字接龙解释模型学习基础，引出训练过程中的关键要素及面临的问题，为后续深入理解各阶段做铺垫。

幻灯片 2：文字接龙示例

页面内容：以 “台湾最高的山是哪座？玉山” 为例，详细展示语言模型将句子拆解为一个个 token（如 “玉”“山”“[END]”）进行学习的过程，直观呈现模型在文字接龙任务中的操作方式。
摘要说明：通过具体实例，清晰呈现语言模型在处理文本时如何按顺序预测下一个 token，帮助读者理解模型学习文字接龙的微观过程，从而对模型的基本学习机制有更直观的认识。

幻灯片 3：机器学习原理

页面内容：深入解释机器学习通过找出数十亿参数实现，未完成句子输入后经含数十亿未知参数的函数预测下一个 token，训练依靠大量输入输出对应数据（如 “人工智能” 对应 “慧” 等），同时说明训练面临的失败（参数不符合训练资料）或过拟合（训练成功但测试失败）情况，以及通过增加训练资料多样性、调整初始参数（从随机或 “好” 的参数开始）来优化训练效果，提及 “先验知识” 对寻找合理参数的重要性。
摘要说明：全面剖析语言模型机器学习的原理，包括参数寻找过程、训练数据作用、常见问题及解决方法，让读者深入了解模型训练背后的复杂机制，以及如何通过多种手段提升训练的有效性和合理性。

幻灯片 4：训练资料来源与处理

页面内容：强调任何文字资料均可用于学习文字接龙，主要来源为网络，具有人工介入少、数量庞大的特点，如 GPT 系列早期使用大量书籍等资料。同时详细阐述训练资料的处理方式，包括过滤有害内容、去除 HTML 标签、去除低品质和重复资料，部分模型使用 “资料品质” 分类器且对高质量文句多次重复训练，还提及训练资料存在版权问题，如《纽约时报》起诉 OpenAI 和微软事件。
摘要说明：系统阐述训练资料的获取途径、特点、处理方式以及涉及的版权争议，使读者全面了解训练资料在大型语言模型训练中的重要地位，以及在使用过程中需要考虑的多方面因素，包括质量控制和法律合规性。

幻灯片 5：模型参数与表现关系

页面内容：展示模型参数数量不断增长趋势，如 GPT - 1 的 117M 到 GPT - 3 的 175B，但指出单纯增大模型规模不一定能提升回答问题能力，以 PaLM 540B 参数模型为例，说明模型虽学习众多知识但缺乏使用方法，如同有上乘内功却不会运用，体现模型在知识获取与应用能力之间的差距。
摘要说明：分析模型参数数量增长与实际表现之间的复杂关系，通过具体模型案例揭示当前模型发展中存在的问题，即知识储备增长但应用能力不足，引发对模型训练目标和方法进一步优化的思考。

幻灯片 6：不训练模型强化语言模型方法（第一部分）

页面内容：开篇提出在不训练模型情况下强化语言模型的问题，接着阐述模型合作的两种方式，一是任务分配，根据不同模型能力和成本选择合适模型执行任务，展示平台服务不一定是同一模型；二是模型讨论，包括模型彼此讨论可提升效果（如 Multi - Agent Debate 等研究），不同任务有不同合适讨论方式（如 Exchange - of - Thought 涉及多种方式及不同可视范围），讨论停止条件（未达成共识继续，达成共识得出结论，有不同级别要求），以及存在为反对而反对情况及相应处理方式（根据其他模型答案给出更新回应的短提示和长提示）。
摘要说明：本页聚焦于不训练模型强化语言模型的模型合作策略，详细介绍任务分配原则和模型讨论机制，包括其提升效果、操作方式、停止规则及特殊情况处理，为读者提供多种无需训练即可优化模型性能的途径和思路。

幻灯片 7：不训练模型强化语言模型方法（第二部分）

页面内容：主要讲述引入不同角色来强化语言模型，团队需要不同角色且不同模型有专长差异，可设定如 “project manager” 等角色，以 Code llama 为例说明不同角色（Programmer、User、Project manager 等）分工协作及贡献度打分优化团队，同时提及未来语言模型可专业分工，不同团队专注打造专业领域语言模型，如 MetaGPT、ChatDev 在开发游戏和编写程序等任务中的角色协作，还展示了由 AI 组成的社群相关研究及模拟场景。
摘要说明：继续探讨不训练模型强化语言模型的方法，着重于角色引入策略，通过实例说明不同角色协作模式及优化方式，展望未来语言模型专业分工和团队协作的发展趋势，展示该方法在不同应用场景中的潜在价值和可行性。