《生成式 AI》课程 第6講:大型語言模型修練史 — 第一階段: 自我學習,累積實力

资料来自李宏毅老师《生成式 AI》课程,如有侵权请通知下线

Introduction to Generative AI 2024 Springicon-default.png?t=O83Ahttps://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php

摘要

这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的,共包含十个作业。每个作业都对应一个具体的主题,例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。

接续上一篇博文

《生成式 AI》课程 第5講:訓練不了人工智慧?你可以訓練你自己 (下)-优快云博客这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的,共包含十个作业。每个作业都对应一个具体的主题,例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。承接上一讲:《生成式 AI》课程 第4講:訓練不了人工智慧?你可以訓練你自己 (中)_生成式人工智能训练-优快云博客这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的,共包含十个作业。每个作业都对应一个具体的主题,例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。https://blog.youkuaiyun.com/chenchihwen/article/details/144005391?spm=1001.2014.3001.5501

大型语言模型修炼史总结

一、模型学习阶段

(一)阶段划分

  1. 自我学习,累积实力:通过大量文字资料进行自我学习,积累语言知识和世界知识,如从各种文本中学习文字接龙(生成下一个 token)。
  2. 名师指点,发挥潜力:利用高质量数据和优化方法等进一步提升模型能力。
  3. 参与实战,打磨技巧:在实际应用场景中不断优化表现。

(二)文字接龙示例

以 “台湾最高的山是哪座?玉山” 为例,语言模型将句子拆解成一连串文字接龙(token)来学习,如依次预测 “玉”“山”“[END]” 等。

(三)机器学习原理

  1. 机器学习通过找出数十亿个参数来实现,将未完成句子输入,根据训练数据预测下一个 token,训练过程涉及优化参数,包括超参数设定等,同时算力也是重要因素。
  2. 训练可能面临失败(找到的参数不符合训练资料)或过拟合(训练成功但测试失败)等问题,需要通过增加训练资料多样性、调整初始参数等方法来让机器找到更 “合理” 的参数。

二、训练相关要素

(一)训练资料

  1. 资料来源与特点
    • 任何文字资料理论上都可用于学习文字接龙,如网络上大量文字资料,GPT 系列在早期使用大量书籍等作为训练资料(GPT - 1 使用 7000 本书,GPT - 2 使用 40GB 数据,GPT - 3 使用 580GB 数据及 300B tokens 等)。
    • 训练资料可通过自我监督学习获取,且数量巨大,但需要进行资料清理,包括过滤有害内容、去除 HTML 标签、去除 “低品质” 资料和重复资料等,部分模型(如 GPT - 3/The Pile/PaLM)使用 “资料品质” 分类器,且高质量文句会多次重复训练。
  2. 资料版权问题:如《纽约时报》起诉 OpenAI 和微软,称数百万篇文章被用于训练聊天机器人,引发了关于训练数据版权的争议。

(二)模型参数与表现

  1. 模型参数数量(模型大小)不断增长,从 GPT - 1 的 117M 到 GPT - 2 的 1542M 再到 GPT - 3 的 175B 等,但单纯增大模型规模并不一定能有效提升模型回答问题的能力。
  2. 例如,尽管 PaLM 达到 540B 参数规模,但在一些问题回答上仍存在不足,原因是模型虽然从网络资料学习了很多知识,但未被教导如何有效使用这些知识,如同有上乘内功却不知使用方法。

幻灯片 1:大型语言模型修炼史

  • 页面内容:介绍文档主题为大型语言模型修炼史,分为自我学习、名师指点、参与实战三个阶段,背景知识以文字接龙为例阐述模型学习方式,涉及机器学习找参数的挑战及相关概念如超参数、训练与测试等,还提及如何让机器找到合理参数,包括增加训练资料多样性、调整初始参数等,最后探讨模型学习所需文字量、训练资料来源及清理、模型参数与表现等内容。
  • 摘要说明:本页概述大型语言模型修炼的整体框架,通过文字接龙解释模型学习基础,引出训练过程中的关键要素及面临的问题,为后续深入理解各阶段做铺垫。

幻灯片 2:文字接龙示例

  • 页面内容:以 “台湾最高的山是哪座?玉山” 为例,详细展示语言模型将句子拆解为一个个 token(如 “玉”“山”“[END]”)进行学习的过程,直观呈现模型在文字接龙任务中的操作方式。
  • 摘要说明:通过具体实例,清晰呈现语言模型在处理文本时如何按顺序预测下一个 token,帮助读者理解模型学习文字接龙的微观过程,从而对模型的基本学习机制有更直观的认识。

幻灯片 3:机器学习原理

  • 页面内容:深入解释机器学习通过找出数十亿参数实现,未完成句子输入后经含数十亿未知参数的函数预测下一个 token,训练依靠大量输入输出对应数据(如 “人工智能” 对应 “慧” 等),同时说明训练面临的失败(参数不符合训练资料)或过拟合(训练成功但测试失败)情况,以及通过增加训练资料多样性、调整初始参数(从随机或 “好” 的参数开始)来优化训练效果,提及 “先验知识” 对寻找合理参数的重要性。
  • 摘要说明:全面剖析语言模型机器学习的原理,包括参数寻找过程、训练数据作用、常见问题及解决方法,让读者深入了解模型训练背后的复杂机制,以及如何通过多种手段提升训练的有效性和合理性。

幻灯片 4:训练资料来源与处理

  • 页面内容:强调任何文字资料均可用于学习文字接龙,主要来源为网络,具有人工介入少、数量庞大的特点,如 GPT 系列早期使用大量书籍等资料。同时详细阐述训练资料的处理方式,包括过滤有害内容、去除 HTML 标签、去除低品质和重复资料,部分模型使用 “资料品质” 分类器且对高质量文句多次重复训练,还提及训练资料存在版权问题,如《纽约时报》起诉 OpenAI 和微软事件。
  • 摘要说明:系统阐述训练资料的获取途径、特点、处理方式以及涉及的版权争议,使读者全面了解训练资料在大型语言模型训练中的重要地位,以及在使用过程中需要考虑的多方面因素,包括质量控制和法律合规性。

幻灯片 5:模型参数与表现关系

  • 页面内容:展示模型参数数量不断增长趋势,如 GPT - 1 的 117M 到 GPT - 3 的 175B,但指出单纯增大模型规模不一定能提升回答问题能力,以 PaLM 540B 参数模型为例,说明模型虽学习众多知识但缺乏使用方法,如同有上乘内功却不会运用,体现模型在知识获取与应用能力之间的差距。
  • 摘要说明:分析模型参数数量增长与实际表现之间的复杂关系,通过具体模型案例揭示当前模型发展中存在的问题,即知识储备增长但应用能力不足,引发对模型训练目标和方法进一步优化的思考。

幻灯片 6:不训练模型强化语言模型方法(第一部分)

  • 页面内容:开篇提出在不训练模型情况下强化语言模型的问题,接着阐述模型合作的两种方式,一是任务分配,根据不同模型能力和成本选择合适模型执行任务,展示平台服务不一定是同一模型;二是模型讨论,包括模型彼此讨论可提升效果(如 Multi - Agent Debate 等研究),不同任务有不同合适讨论方式(如 Exchange - of - Thought 涉及多种方式及不同可视范围),讨论停止条件(未达成共识继续,达成共识得出结论,有不同级别要求),以及存在为反对而反对情况及相应处理方式(根据其他模型答案给出更新回应的短提示和长提示)。
  • 摘要说明:本页聚焦于不训练模型强化语言模型的模型合作策略,详细介绍任务分配原则和模型讨论机制,包括其提升效果、操作方式、停止规则及特殊情况处理,为读者提供多种无需训练即可优化模型性能的途径和思路。

幻灯片 7:不训练模型强化语言模型方法(第二部分)

  • 页面内容:主要讲述引入不同角色来强化语言模型,团队需要不同角色且不同模型有专长差异,可设定如 “project manager” 等角色,以 Code llama 为例说明不同角色(Programmer、User、Project manager 等)分工协作及贡献度打分优化团队,同时提及未来语言模型可专业分工,不同团队专注打造专业领域语言模型,如 MetaGPT、ChatDev 在开发游戏和编写程序等任务中的角色协作,还展示了由 AI 组成的社群相关研究及模拟场景。
  • 摘要说明:继续探讨不训练模型强化语言模型的方法,着重于角色引入策略,通过实例说明不同角色协作模式及优化方式,展望未来语言模型专业分工和团队协作的发展趋势,展示该方法在不同应用场景中的潜在价值和可行性。

自督導式學習 (Self-supervised Learning)、預訓練 (Pre-train)

督導式學習 (Supervised Learning)(Instruction) Fine-tuning

Reinforcement Learning from Human Feedback (RLHF)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值