NLP的迁移模型

本文介绍了一种名为ULMFiT的通用语言模型微调方法,该方法通过预训练、目标领域微调及最终任务训练三个阶段,实现了对任何NLP任务的高效迁移学习。其创新的微调策略包括判别性微调和渐进解冻,有效防止了灾难性遗忘,实验证明其在多种文本分类任务中超越现有技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Universal Language Model Fine-tuning for Text Classification

这篇文章介绍了一个新的NLP领域的迁移模型,文中称ImageNet-like model,文章介绍了ULMFiT并介绍了微调的策略。

  • ULMFi模型     (开源代码http://nlp.fast.ai/ulmfit.)
  • ULMFi模型的微调策略
  • 实验
  • 结果
  • We propose a new method, Universal Language Model Fine-tuning (ULMFiT) that addresses these issues and enables robust inductive transfer learning for any NLP task, akin to fine-tuning ImageNet models: The same 3-layer LSTM architecture— with the same hyperparameters and no additions other than tuned dropout hyperparameters— outperforms highly engineered models
  • 利用LM任务进行预训练,
  • 再利用目标领域的语料对LM模型做微调,
  • 最后针对目标任务进行最后的训练
  • ULMFiT     基于Wiki texts数据集       预训练任务LM(语言模型)      AWD-LSTM即ASGD Weight-Dropped LSTM
  • 接下来介绍如何微调的,我觉得重在learning rate和从后向前逐层微调
  • Discriminative fine-tuning:

还是learning rate:

  • Target task classifier fine-tuning

  • Concat pooling、Gradual unfreezing(迁移学习常用策略)、BPTT for Text Classification (BPT3C)、Bidirectional language model(我们不仅限于微调单向语言模型。 对于我们所有的实验,我们预先训练前向和后向LM。 我们使用BPT3C独立微调每个LM的分类器并平均分类器预测。)

  • 实验结果:

  • 结论:

  • 提出的ULMFiT是一种有效且极其样本有效的迁移学习方法,可应用于任何NLP任务。同时提出了几种新颖的微调技术,这些技术可以防止灾难性的遗忘并在各种各样的范围内实现强大的学习任务。 提出的方法通过实证显示优于现有的转移学习技术和六种代表性文本分类的最新技术任务。 很有趣的看到了NLP的迁移学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值