Universal Language Model Fine-tuning for Text Classification
这篇文章介绍了一个新的NLP领域的迁移模型,文中称ImageNet-like model,文章介绍了ULMFiT并介绍了微调的策略。
- ULMFi模型 (开源代码http://nlp.fast.ai/ulmfit.)
- ULMFi模型的微调策略
- 实验
- 结果
- We propose a new method, Universal Language Model Fine-tuning (ULMFiT) that addresses these issues and enables robust inductive transfer learning for any NLP task, akin to fine-tuning ImageNet models: The same 3-layer LSTM architecture— with the same hyperparameters and no additions other than tuned dropout hyperparameters— outperforms highly engineered models
- 利用LM任务进行预训练,
- 再利用目标领域的语料对LM模型做微调,
- 最后针对目标任务进行最后的训练
- ULMFiT 基于Wiki texts数据集 预训练任务LM(语言模型) AWD-LSTM即ASGD Weight-Dropped LSTM
- 接下来介绍如何微调的,我觉得重在learning rate和从后向前逐层微调
- Discriminative fine-tuning:
还是learning rate:
-
Target task classifier fine-tuning
-
Concat pooling、Gradual unfreezing(迁移学习常用策略)、BPTT for Text Classification (BPT3C)、Bidirectional language model(我们不仅限于微调单向语言模型。 对于我们所有的实验,我们预先训练前向和后向LM。 我们使用BPT3C独立微调每个LM的分类器并平均分类器预测。)
-
实验结果:
-
结论:
-
提出的ULMFiT是一种有效且极其样本有效的迁移学习方法,可应用于任何NLP任务。同时提出了几种新颖的微调技术,这些技术可以防止灾难性的遗忘并在各种各样的范围内实现强大的学习任务。 提出的方法通过实证显示优于现有的转移学习技术和六种代表性文本分类的最新技术任务。 很有趣的看到了NLP的迁移学习。