目录
- 1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
- 2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
- 3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
- 4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
- 5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
标签: multi-domain language; fine-tuned
1.1 主模型
- 训练出一种模型,可以在不同种类的语言模型中进行fine-tuned。
为避免在下一种模型中训练时会遗忘掉上一种训练的模型,引入continual learning ,使用三种方法:
(i) elastic weight con- solidation (EWC)
(ii) learning rate control (LRC)
(iii) experience replay (ER)
1.2 实验
task domain:
- generic domain understanding:
GLUE; QA (from SQuAD);NER (CoNLL) - bio-medical performance:
BC5CDR (NER);Chemprot (RE);BioASQ (QA)
2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
标签:distillation;unsupervised domain-adaptation
2.1 主模型
step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化,将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据
BERT模型预处理源域数据,提取相应特征,然后运用distillation技术实现源域知识到目标域知识的迁移,从而达到目标域的情感分类任务。
2.2 实验
数据集:
Airline review dataset;IMDB dataset;Amazon reviews datasets (which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K))
对于30组cross-domain sentiment classification tasks进行实验
baseline:DistilBERT;RoBERT
3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
3.1 模型
每次需要添加某种新的"知识"时,又需要重新预训练整个模型,这可能会导致之前"知识"的遗忘。
本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter,并定义不同的预训练任务,每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。
Adapter Layer由三部分组成,包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。
将Roberta除最后一层以外的每一层的输出,传给Adapter对应的层,(即M层Transformer Layer,则存在K层Adapter Layder)。
对于单个Adapter的情况,最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接,传给预训练任务。
而对于多个Adapter的情况,以两个为例,将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接,传给预训练任务。
实验时,采用N = 2, M = 24, K = {0, 11, 23},可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。
文中定义了两种不同的Adapter:
Factual Adapter: 在T-REx的数据集上预训练。关系分类任务,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征,并过一层pooling layer,最后拼接两个entity的特征,并执行Relation Classification任务。
Linguistic Adapter: 预训练任务,dependency relation prediction,即预测给定句子中每一个单词的父节点位置,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征,接一个线性层,完成多分类任务。
3.2 实验
knowledge-specific adapter
在三个方向上做实验:entity typing, question answering and relation classification
4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
模型特点:
-
只选取teacher和student模型特征抽取的最后一层
-
蒸馏处主要由两部分构成:
(1) Self-Attention Distribution Transfer:先计算teacher模型和student模型的自注意力得分,由Queries和keys通过点积得到,然后通过相对熵来计算teacher模型和student模型的自注意力得分矩阵差异。
(2) Self-Attention Value-Relation Transfer:value关系矩阵由vlaue向量点积得到(点积的作用:将不同维度的value向量转换为相同维度大小的关系矩阵),也通过相对熵来衡量teacher模型和student模型之间的差异。
(3)所以loss就是这两者之和,为:
-
在teacher模型和student模型上引入助教中间模型(Teacher Assistant)来提升迁移效率:先将大模型压缩成中间大的一个模型,然后用这个中间模型最终压缩成小的模型。
5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
标签:Contrastive Learning;Domain Adaptation
5.1 主模型
使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting
- 使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
- 新domain不去增加旧domain训练出来的loss
5.2 实验
由于是图像处理,可以先排除