distill论文总结(未待续)

本文探讨了多种语言模型在不同领域的应用及优化方法,包括多领域预训练、无监督领域适应的知识蒸馏、预训练模型的知识注入适配器、深度自注意力蒸馏以及对比学习在连续领域适应中的应用。

1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training

标签: multi-domain language; fine-tuned

1.1 主模型

在这里插入图片描述

  • 训练出一种模型,可以在不同种类的语言模型中进行fine-tuned。
    为避免在下一种模型中训练时会遗忘掉上一种训练的模型,引入continual learning ,使用三种方法:
    (i) elastic weight con- solidation (EWC)
    (ii) learning rate control (LRC)
    (iii) experience replay (ER)

1.2 实验

在这里插入图片描述
在这里插入图片描述
task domain:

  1. generic domain understanding:
    GLUE; QA (from SQuAD);NER (CoNLL)
  2. bio-medical performance:
    BC5CDR (NER);Chemprot (RE);BioASQ (QA)

2. Knowledge Distillation for BERT Unsupervised Domain Adaptation

标签:distillation;unsupervised domain-adaptation

2.1 主模型

在这里插入图片描述
step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化,将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据

BERT模型预处理源域数据,提取相应特征,然后运用distillation技术实现源域知识到目标域知识的迁移,从而达到目标域的情感分类任务。

2.2 实验

数据集:
Airline review dataset;IMDB dataset;Amazon reviews datasets (which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K))
在这里插入图片描述
对于30组cross-domain sentiment classification tasks进行实验在这里插入图片描述
baseline:DistilBERT;RoBERT

3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS

3.1 模型

每次需要添加某种新的"知识"时,又需要重新预训练整个模型,这可能会导致之前"知识"的遗忘。

本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter,并定义不同的预训练任务,每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。

在这里插入图片描述

Adapter Layer由三部分组成,包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。

将Roberta除最后一层以外的每一层的输出,传给Adapter对应的层,(即M层Transformer Layer,则存在K层Adapter Layder)。

对于单个Adapter的情况,最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接,传给预训练任务。

而对于多个Adapter的情况,以两个为例,将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接,传给预训练任务。

实验时,采用N = 2, M = 24, K = {0, 11, 23},可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。

文中定义了两种不同的Adapter:

Factual Adapter: 在T-REx的数据集上预训练。关系分类任务,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征,并过一层pooling layer,最后拼接两个entity的特征,并执行Relation Classification任务。
Linguistic Adapter: 预训练任务,dependency relation prediction,即预测给定句子中每一个单词的父节点位置,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征,接一个线性层,完成多分类任务。

3.2 实验

knowledge-specific adapter
在三个方向上做实验:entity typing, question answering and relation classification
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers

模型特点:

  1. 只选取teacher和student模型特征抽取的最后一层

  2. 蒸馏处主要由两部分构成:
    (1) Self-Attention Distribution Transfer:先计算teacher模型和student模型的自注意力得分,由Queries和keys通过点积得到,然后通过相对熵来计算teacher模型和student模型的自注意力得分矩阵差异。
    在这里插入图片描述

    (2) Self-Attention Value-Relation Transfer:value关系矩阵由vlaue向量点积得到(点积的作用:将不同维度的value向量转换为相同维度大小的关系矩阵),也通过相对熵来衡量teacher模型和student模型之间的差异。
    在这里插入图片描述
    在这里插入图片描述
    (3)所以loss就是这两者之和,为:
    在这里插入图片描述

  3. 在teacher模型和student模型上引入助教中间模型(Teacher Assistant)来提升迁移效率:先将大模型压缩成中间大的一个模型,然后用这个中间模型最终压缩成小的模型。

在这里插入图片描述

5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

标签:Contrastive Learning;Domain Adaptation

5.1 主模型

使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting

  1. 使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
  2. 新domain不去增加旧domain训练出来的loss在这里插入图片描述

5.2 实验

由于是图像处理,可以先排除

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值