1、前缀调优
前缀调优(PrefixTuning)是一种轻量级的微调替代方法,专门用于自然语言生成任务。
前缀调优的灵感来自于语言模型提示,前缀就好像是“虚拟标记”一样,这种方法可在特定任务的上下文中引导模型生成文本。
前缀调优的独特之处在于它不改变语言模型的参数,而是通过冻结LM参数,仅优化一系列连续的任务特定向量(即前缀)来实现优化任务,如图1所示
由于在训练中只需要为每个任务存储前缀,前缀调优的轻量级设计避免了存储和计算资源的浪费,同时保持了模型的性能,具有模块化和高效利用空间的特点,有望在NLP任务中提供高效的解决方案。
2、提示调优
提示调优(PromptTuning)方法是由BrianLester在论文“ThePower of Scale for Parameter-Efficient Prompt Tuning,”中提出的。
提示调优采用“软提示”(SoftPrompt)的方式,通过冻结整个预训练模型,只允许每个下游任务在输入文本前面添加k个可调的标记(Token)来优化模型参数,赋予语言模型能够执行特定的下游任务的能力,如图2所示
在论文的实验对比中,对于T5-XXL模型,每个经过调整的模型副本需要110亿个参数,相较于为每个下游任务制作特定的预训练模型副本,提示调优需要的参数规模仅为20480个参数。该方法在少样本提示方面表现出色。
3、P-Tuning v2
尽管提示调优在相应任务上取得了一定的效果,但当底座模型规模较小,特别是小于1000亿个参数时,效果表现不佳。为了解决这个问题,清华大学的团队提出了针对深度提示调优的优化和适应性实现–P-Tuning v2方法。
该方法最显著的改进是对预训练模型的每一层应用连续提示,而不仅仅是输入层。
这实际上是一种针对大型语言模型的软提示方法,主要是将大型语言模型的词嵌入层和每个Transformer网络层前都加上新的参数。
深度提示调优增加了连续提示的功能,并缩小了在各种设置之间进行微调的差距,特别是对于小型模型和困难的任务。
4、LORA
微软公司在2021年提出了一种名为Low-RankAdaptation(LORA,低秩适配器)的方法。
LORA的核心思想是通过冻结预训练模型的权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,从而显著减少下游任务中可训练参数的数量。
在训练过程中,只需要固定原始模型的参数,然后训练降维矩阵A和升维矩阵B,如图3所示
与使用Adam微调的GPT-3175B相比,LORA可以将可训练参数的数量减少10000倍,并将GPU内存需求减少3倍。
尽管LORA的可训练参数较少,训练吞吐量较高,但与ROBERTa、DeBERTa、GPT-2和GPT-3等模型相比,LORA在模型质量性能方面与微调相当,甚至更好
5、DyLORA
但随着研究的深入,LORA块存在两大核心问题
(1)一旦训练完成后,LORA块的大小便无法更改,若要调整LORA块的秩,则需重新训练整个模型,这无疑增加了大量时间和计算成本。
(2)LORA块的大小是在训练前设计的固定超参,优化秩的过程需要精细的搜索与调优操作,仅设计单一的超参可能无法有效提升模型效果。
为解决上述问题,研究者引入了一种全新的方法-DyLORA(动态低秩适应)
研究者参考LORA的基本架构,针对每个LORA块设计了上投影(Wup)和下投影(Wdw)矩阵及当前LORA块的规模范围R。
为确保增加或减少秩不会明显阻碍模型的表现,在训练过程中通过对LORA块对不同秩的信息内容进行排序,再结合预定义的随机分布中进行抽样,来对LORA块镜像上投影矩阵和下投影矩阵截断,最终确认单个LORA块的大小,如图4所示
研究结果表明,与LORA相比,使用DyLORA训练出的模型速度可提升4~7倍,且性能几乎没有下降。此外,与LORA相比,该模型在更广泛的秩范围内展现出了卓越的性能。
6、AdaLORA
正如DyLORA优化方法一样,提出AdaLORA的研究者也发现,当前LORA存在的改进方向:
由于权重矩阵在不同LORA块和模型层中的重要性存在差异,因此不能提前制定一个统一规模的秩来约束相关权重信息,需要设计可以支持动态更新的参数矩阵
需要设计有效的方法来评估当前参数矩阵的重要性,并根据重要性程度,为重要性高的矩阵分配更多参数量,以提升模型效果,对重要性低的矩阵进行裁剪,进一步降低计算量根据上述思想。
研究者提出了AdaLORA方法,可以根据权重矩阵的重要性得分,在权重矩阵之间自适应地分配参数规模。
在实际操作中,AdaLoRA采用奇异值分解(SVD)的方法来进行参数训练,根据重要性指标剪裁掉不重要的奇异值来提高计算效率,从而进一步提升模型在微调阶段的效果。
7、QLORA
TimDettmers等研究者在论文“QLORA:Efficient Finetuning ofQuantized LLMs”中提出了一种高效的模型微调方法–OLORA,如图5所示
OLORA的创新内容主要如下:
4bit NormalFloat(NF4)。NF4是一种新型数据类型,它对正态分布的权重来说是信息理论上的最优选择
双重量化技术。双重量化技术减少了平均内存的使用,它通过对已量化的常量进行再量化来实现
分页优化器。分页优化器有助于管理内存峰值,防止梯度检查点时出现内存不足的错误
实验表明,QLORA技术使得研究者能够在单个48GBGPU上微调650亿个参数规模的模型,同时维持16bit精度任务的完整性能。
例如,在训练Guanaco模型时,仅需在单个GPU上微调24h,即可达到与ChatGPT相当的99.3%性能水平。通过OLORA微调技术,可以有效降低模型微调时的显存消耗
8、OA-LOR
在论文“OA-LoRA: Quantization-aware Low-rank Adaptation oflargelanguagemodels”中,研究者提出了一种量化感知的低秩适应(OA-LORA)算法。该方法来源于量化和适应的自由度不平衡的思想。
研究者提出采用分组运算符的方式,旨在增加量化自由度的同时减少适应自由度。
QA-LORA的实现简便,仅需几行代码,同时赋予原始的LORA两倍的能力:在微调过程中,LLM的权重被量化(如INT4),以降低时间和内存的使用
微调后,LLM和辅助权重能够自然地集成到一个量化模型中,而不损失准确性
通过在LLaMA和LLaMA2模型系列的实验中证明,QA-LORA在不同的微调数据集和下游场景中验证了其有效性。
如图6所示,与之前的适应方法LORA和QLORA相比,OA-LORA在微调和推理阶段都具有更高的计算效率。
由于不需要进行训练后量化,因此它不会导致准确性损失。在图6中展示了INT4的量化,但OA-LORA可以推广到INT3和INT2
9、 LongLORA
通常情况下,用较长的上下文长度训练大型语言模型的计算成本较高,需要大量的训练时间和GPU资源。
为了在有限的计算成本下扩展预训练大型语言模型的上下文大小,研究者在论文“LongLoRA: Efficient Fine-tuningof Long-ContextLarge LanguageModels”中提出了LongLORA的方法,如图7所示
LongLORA在两个方面进行了改进:
虽然在推理过程中需要密集的全局注意力,但通过采用稀疏的局部注意力,可以有效地进行模型微调。
在LongLORA中,引入的转移短暂的注意力机制能够有效地实现上下文扩展,从而在性能上与使用香草注意力(Vanilla Attention)进行微调的效果相似
通过重新审视上下文扩展的参数高效微调机制,研究者发现在可训练嵌入和规范化的前提下,用于上下文扩展的LORA表现良好
LongLORA在从70亿、130亿到700亿个参数的LLaMA2模型的各种任务上都取得了良好的结果。
LongLORA采用LLaMA2-7B型,将上下文长度从4000个Token扩展到10万个Token,展现了其在增加上下文长度的同时保持了高效计算的能力。
这为大型语言模型的进一步优化和应用提供了有益的思路。
10、VeRA
LORA是一种常用的大型语言模型微调方法,它在微调大型语言模型时能够减少可训练参数的数量。
然而,随着模型规模的进一步扩大或者需要部署大量适应于每个用户或任务的模型时,存储问题仍然是一个挑战。
研究者提出了一种基于向量的随机矩阵适应(Vector-based Randommatrix Adaptation,VeRA)的方法,VeRA的实现方法是通过使用:
对低秩矩阵在所有层之间共享,并学习小的缩放向量来实现这一目标。
与LORA相比,VeRA成功将可训练参数的数量减少了10倍,同时保持了相同的性能水平,如图8所示,LORA通过训练低秩矩阵和来更新权重矩阵,中间秩为。
在VeRA中,这些矩阵被冻结,在所有层之间共享,并通过可训练向量和进行适应,从而显著减少可训练参数的数量。
在这种情况下,低秩矩阵和向量可以合并到原始权重矩阵中,不引入额外的延迟。
这种新颖的结构设计使得VeRA在减少存储开销的同时,还能够保持和LORA相媲美的性能,为大型语言模型的优化和应用提供了更加灵活的解决方案。
实验证明,VeRA在GLUE和E2E基准测试中展现了其有效性,并在使用LLaMA2 7B模型时仅使用140万个参数的指令就取得了一定的效果。
这一方法为在大型语言模型微调中降低存储开销提供了一种新的思路,有望在实际应用中取得更为显著的效益。
11、S-LORA
LORA作为一种参数高效的大型语言模型微调方法,通常用于将基础型适应到多种任务中,从而形成了大量派生自基础模型的LORA模型。
由于多个采用LORA形式训练的模型的底座模型都为同一个,因此可以参考批处理模式进行推理。
据此,研究者提出了一种S-LoRA(Servingthousandsofcon currentLoRAadapters)方法,S-LORA是一种专为可伸缩地服务多个LORA适配器而设计的方法。
S-LORA的设计理念是将所有适配器存储在主内存中,并在GPU内存中动态获取当前运行查询所需的适配器。
为了高效使用GPU内存并减少碎片,S-LORA引入了统一分页。统一分页采用统一的内存池来管理具有不同秩的动态适配器权重以及具有不同序列长度的KV缓存张量。
此外,S-LORA还采用了一种新颖的张量并行策略和高度优化的自定义CUDA核心,用于异构批处理LORA计算。
这些特性使得S-LORA能够在单个GPU或跨多个GPU上提供数千个LORA适配器,而开销相对较小。通过实验发现,S-LORA的吞吐量提高了4倍多,并且提供的适配器数量增加了数个数量级。
因此,S-LORA在实现对许多任务特定微调模型的可伸缩服务方面取得了显著进展,并为大规模定制微调服务提供了潜在的可能性。
12、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
2024最新版优快云大礼包:《AGI大模型学习资源包》免费分享**
一、2025最新大模型学习路线
一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。
L1级别:AI大模型时代的华丽登场
L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。
L2级别:AI大模型RAG应用开发工程
L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3级别:大模型Agent应用架构进阶实践
L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。
L4级别:大模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
二、大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
三、大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
四、大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
五、大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取