预训练模型adapter的几篇论文概述

最近阅读几篇 distillation-adapter论文,要求掌握理解算法,和大家分享一下:第一篇是huggingface的adpater代码库中的位置,其中详细讲解了在transformer中加入adapter层和adapterfusion层,第二篇论文在adpater代码库中的位置中也可以找到,主要是将已经训练好的multilingual模型移到另外一种语言上,模型由三部分组成language, task, and invertible adapters组成,第三篇是使用CONTRASTIVE LEARNING来进行distillation的学习。

1. AdapterFusion: Non-Destructive Task Composition for Transfer Learning

解决问题:解决pre-train模型的在多domain上的catastrophic forgetting和dataset balancing的问题。
related work:目前主流的pre-train模型的方法有三个:

  1. fine-tuning:对于n个任务,在每一步训练一个任务模型的时候要初始化一个层,通过学习这个层的结构来学习参数,但是这种方法在超过两种task下就会出现灾难性遗忘的问题。
  2. Multi-Task Learning (MTL):所有task都同步学习,来学习一个大的结构可以表示所有的模型。这种方法在大量困难任务的学习时loss的设计是一个大问题。
  3. adapter:分为Single-Task Adapters (ST-A)、Multi-Task Adapters (MT-A)。本文提出,可以解决上述的两个问题。

adapter的方法:adapter位置图
adapter结构图
方法:主要分成两个部分adapter部分和adapterfusion

  • adapter:In the first stage of our learning algorithm, we train either ST-A or MT-A for each of the N tasks.
  • adapterfusion:In the second stage, we then combine the set of N adapters by using AdapterFusion. While fixing both the parameters Θ as well as all adapters Φ, we introduce parameters Ψ that learn to combine the N task adapters to solve the target task.

### CLIP-Adapter 模型架构概述 CLIP-Adapter 是一种用于改进预训练视觉语言模型(如 CLIP)在下游任务中表现的方法。它通过引入适配层来微调模型,而无需重新训练整个网络,从而实现高效的任务迁移和性能优化[^1]。 #### 架构核心组件 CLIP-Adapter 的设计主要围绕以下几个方面展开: 1. **基础模块继承** CLIP-Adapter 基于原始 CLIP 模型构建,保留了其双分支结构——即图像编码器和文本编码器。这两个部分分别负责提取输入图像 \( I \) 和类别名称集合 \( \{C_i\}_{i=1}^K \) 的特征表示[^4]。 2. **适配层引入** 为了增强模型对特定任务的适应能力,CLIP-Adapter 在原有 CLIP 模型的基础上加入了一个轻量级的适配层。该适配层通过对图像和文本特征进行线性变换或非线性映射,使模型能够更好地捕捉目标任务中的模式差异[^2]。 3. **分类权重生成机制** 针对少样本学习场景,CLIP-Adapter 提出了动态生成分类器权重的技术。这一过程依赖于类别描述符以及经过调整后的文本嵌入向量,旨在提高模型对于未知类别的识别精度[^1]。 4. **跨模态交互强化** 不同于传统方法仅独立处理单个模态的数据流,某些变体版本(例如 CLIP-MMA)进一步探索了如何加强图文间的关系建模。它们采用基于注意力机制的多模态适配策略,在联合空间内同步更新两种类型的表达形式,进而减少因过度拟合而导致的泛化下降风险[^3]。 尽管官方文档并未提供一张完整的标准流程示意图作为参考依据之一,但从以上分析可以推测出整体框架大致如下所示: ```plaintext Input Image -> Image Encoder (Frozen or Fine-tuned) -> Feature Map -> -> Adapter Layer -> Adjusted Visual Representation Category Names -> Text Encoder (Fixed Weights Typically) -> Semantic Embeddings -> -> Classifier Weight Generator -> Task-specific Decision Boundary ``` 如果需要更加直观的理解方式,则建议查阅相关论文附录或者开源项目仓库内的可视化资源链接地址获取最新版图形资料支持说明文件等内容详情信息。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值