刘知远大模型学习笔记-Delta Tuning

最新推荐文章于 2024-09-13 22:29:32 发布

原创

最新推荐文章于 2024-09-13 22:29:32 发布 · 786 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #人工智能

Delta Tuning学习知识

本博客记录我学习B站【清华NLP】课程中的内容与想法，这是本系列第二篇，后续可能还会有更新。

文章目录

Delta Tuning学习知识
Delta Tuning介绍
一、增量式tuning
二、指定式tuning
- 代表方法：BitFit
三、重参数化式tuning
- 代表方法1：Instrinsic Prompt Tuning
- 代表方法2：LoRA
总结

Delta Tuning介绍

Prompt Learning对于位置任务不太适用，但是认为可以用于多模态。也就是图片与文本理解。
Delta Tuning核心思想：绝大多数参数不变，只微调一小部分模型，优化特别少参数。也就是把解决任务抽象为一小部分参数（Delta Objects）。
有了预训练大模型，这类方法才有用。

分类：Addition，增量式；Specification，指定式；Reparameterization，重参数化式（现在超级常用的LoRA)。

提示：以下是本篇文章正文内容，下面案例可供参考

一、增量式tuning

代表方法1：Adapters

代表方法1：Adapters
事实上，Adapter就是简单的MLP，双层神经网络，实现上投影与下投影，输入维度与输出相同。
在Transformer架构中加入两个Adapter，只训练Adapter部分，大模型效果可能会更好。
Adapter-tuning
后续改进工作还有把Adapter放在主模型外的，反向传播时不需要经过backbone，更省计算。且进行降维之后还减少内存占用。

代表方法2：Prefix-Tuning

soft token：可以理解为模

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

华山菠萝吹雪

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Prompt Tuning 和 Delta Tuning 针对预训练语言模型进行微调

u013558123的博客

02-03

1580

Prompt Tuning 和 Delta Tuning 是两种针对预训练语言模型进行微调的方法

预训练模型参数优化有效方法（Delta Tuning）必读精选论文

lqfarmer的博客

09-10

528

越来越大的预训练模型带来了对现有和未知任务的训练带来了福音，以及过高的模型训练成本。在这种情况下，参数有效方法（增量调整，delta tuning）被开发出来，并逐渐成为一种行之有效方法，可以用一小部分可调参数来刺激巨大的模型，从而显着降低模型适应的计算和存储成本。除了明显的实用价值外，delta tuning似乎暗示了预训练模型的特定适应可能是一个非常简单的过程，这可能会引发有趣的理论问题，值得探索。本资源整理了预训练模型参数优化有效方法（Delta Tuning）必读精选论文。

参与评论您还未登录，请先登录后发表或查看评论

Delta Tuning（我理解的是微量调整）

Hekena的博客

06-29

3138

本质是在一小部分的参数进行调整。现有 Delta Tuning 方法可以被分为三组：增量式（Addition-based）:重新增加一组参数。常见的增量式方法包括 Adapter-Tuning、Prefix Tuning、Prompt Tuning 等等。将小规模的神经模块或者可调参数插入到模型中，并且通过只微调这一小部分参数来达到模型高效适配的效果。其中 Adapter-tuning 是这类方法的开创性工作，它证明仅仅在每一层添加一个简单的神经网络，就可以在很多任务上媲美全参数微调。Prompt Tun

Delta tuning（只抓核心）

Hekena的博客

07-21

1638

2020）提出一种简单的mask方法实现高效finetune。相比一般的finetune，该方法在finetune阶段不对参数进行调整，而是学习一个mask矩阵。对于每一个Transformer层，都会学习一个0-1的矩阵，然后用这个矩阵对该层所有全连接权重进行缩放。公式如下，m表示矩阵中某一个元素，根据一个阈值设置为1或0，再用这个矩阵和每层的全连接参数相乘进行对应元素的缩放。block......................

[学习笔记]刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍

zhangyifeng_1995的博客

02-02

846

IR系统分为两个阶段：Retrieval阶段：对整个文档库排序后，抽回一部分相关文档的子集。主要考虑召回率。Re-Rankink阶段：精排序主要的机器问答类型：机器阅读理解、开放域问答、基于知识库问答、对话式QA完形填空多选抽取式阅读理解(原文找答案)data-to-text: 可以把一些非语言性的表示的信息，通过模型，以人类可以理解的语言表示出来。例子：seq2seq比较知名的模型：T5T5是在一个被清洗过的爬取的数据集上训练的。输入时，会将其中一部分mask，在训练和模型策略上。

刘知远团队大模型公开课笔记汇总【持续更新中】

m0_52784465的博客

04-23

816

清华大学大模型公开课

【LLM第8篇】Delta Tuning

凝眸伏笔的博客

07-07

733

adapter、predix tuning、Lora实际上做的事情都是大模型不动，只微调很少部分的参数。这些事情都是基于一个假设，模型的优化，本质上可以用一个很少代价来完成，可以把它映射到一个低维或者低秩的过程，用很简单的过程完成模型的优化。过去模型参数是随机的，现在预训练模型，已经学到了一些universal知识，针对下游任务，只需要学习一下将通用支持到专家领域的知识。不同的任务，微调方法不同，会有不同的效果，不是一种方法可以使用于所有任务。Lora把模型的优化，不只是在低维，认为模型的优化是低秩的。

[学习笔记]刘知远团队大模型技术与交叉应用-汇总

zhangyifeng_1995的博客

01-14

1069

视频：【清华NLP】刘知远团队大模型公开课全网首发｜带你从入门到实战[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

zhangyifeng_1995的博客

01-14

1194

本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构：RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。

[学习笔记]刘知远团队大模型技术与交叉应用L4-Prompt-learning & Delta-learning

zhangyifeng_1995的博客

01-21

974

预训练和fine-tuning有一定的gap。毕竟是不同的任务。通过额外增加模版。映射到标签的过程称为verbalizer。这样就使用了mask任务。弥补了不同之间的gap。

清华NLP-刘知远团队大模型公开课（学习笔记）

a131529的博客

11-07

1885

链接: https://pan.baidu.com/s/1ZboqS6D5Rc705piL0ANXog?

【大模型公开课】清华大学刘知远团队大模型公开课学习笔记——1.4自然语言处理基础与应用

weixin_44184852的博客

07-18

629

有一个关于NLP领域比较好的综述：Advances in Natural Language Processing。再进一步：Named entity recognition 命名实体的识别。最后：句法各种成分的依赖关系中文中词与词之间没有空格，需要进行分词。发表在2015年的Science上比较适合了解NLP的基本知识。再进一步：为了应对自然语言处理中省略的现象，比如共指消息。基本任务：词性标注 part of speech。

大模型分类介绍之业务分类与提示工程（一）

qq_48717745的博客

09-13

2190

本文主要对大模型的分类以及如何更好的提问进行了总结，并对常见的微调数据集格式进行了对比。

刘知远大模型学习笔记-大模型微调（fine-tune）

jennieg的博客

03-27

941

由Hugging Face提出，包括许多预训练大模型，能够通过pipeline轻松实现部署应用，我在VSCode中通过虚拟环境实现，需要先pip install transformers。

大模型学习——【清华NLP】刘知远团队大模型公开课全网首发｜带你从入门到实战（一）

weixin_54379099的博客

10-14

1357

官方网站：https://www.openbmb.org启智社区：https://git.openi.org.cn/OpenBMB。

大模型训练中的Delta Tuning优化方法

weixin_41888295的博客

10-17

407

总之，Delta Tuning是一种有效的预训练模型参数优化方法，它通过微调预训练模型的参数来适应特定任务，从而最大限度地提高模型性能。预训练模型是一种已经在一个大规模数据集上训练过的模型，它可以在多个任务中应用，从而提高模型的泛化性能。另外，通过对不同层级的参数设置不同的Delta值，可以实现模型的层次性优化，从而更好地满足不同层次任务的需求。然而，预训练模型的性能往往受到参数设置的影响，因此，参数优化成为提高模型性能的关键步骤。更新参数：按照确定的Delta值，对预训练模型的参数进行更新。

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

qq_41200212的博客

07-19

925

论文阅读：这篇文章给出了一个全新的术语——delta tuning，对以往研究的一系列参数高效微调方法进行了分类与定义，并且通过实验分析了delta tuning方法的性能表现、收敛表现、高效性表现、泛化表现、迁移性表现，以及随模型规模增长的性能表现。对今后将大模型适配到特定下游任务这一过程，给出了更加高效的实现方法。

大模型系统和应用——Prompt-learning & Delta Tuning

日积月累，天道酬勤

09-26

5411

主要介绍了prompt tuning和delta tuning。

大模型学习——第二节课（NLP刘知远大模型公开课）

weixin_54379099的博客

10-19

412

CNN vs RNN，RNN（不能并行化）

清华大学刘知远大模型课程笔记 prompt learning