NLP领域中更有效的迁移学习方法

阿里云云栖号

于 2018-10-08 15:17:17 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签：自然语言处理语言模型迁移学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yunqiinsight/article/details/82968307

在深度学习领域，迁移学习（transfer learning）是应用比较广的方法之一。该方法允许我们构建模型时候不光能够借鉴一些其它科研人员的设计的模型，还可以借用类似结构的模型参数，有些类似于站在巨人的肩膀上进行深入开发。本文将讲述如何在NLP领域中更高效地应用迁移学习。
今年春天，我在ODSC East会议上发表了题为 “NLP中的有效迁移学习”的演讲。该演讲展示了预训练的单词和文档嵌入层在训练数据集较小时取得的优异结果，并为将这些技术应用于工程任务中提出了一系列实用建议。此外，感谢[Alec Radford和OpenAI团队的一些出色研究]()，使得之前提出的一些建议发生了一些变化。
为了解释发生变化的原因，首先回顾一下之前在Indico会议中使用的评估方法，以评估一种新颖的机器学习方法是否适用于工业用途中。

评估新的机器学习方法

对于广泛的实际应用，机器学习模型必须对照以下大多数要求检验自身：

快速训练
快速预测
需要极少或不需要超参数调整
在训练数据可用性较低时运行良好（100个示例）
适用于广泛的任务及对应的领域
在标记的训练数据上能够很好地扩展

让我们看看预先训练好的单词+文档嵌入层如何满足这些要求：

快速训练
在预训练嵌入层之上训练轻量级模型所花费的时间在几秒钟内是可能的，尽管计算预训练嵌入层依赖于基础模型复杂度。
快速预测
预测同样快速，预测与基础模型花费一样的代价。
需要极少或不需要超参数调整
正则化参数和嵌入类型的交叉验证对其是有所帮助的，并且这种操作足够便宜而且不会引入问题。
在训练数据可用性较低时起作用（100个示例）
在预训练的单词嵌入层之上应用逻辑回归块仅需要学习100s~1000s的参数而不是数百万的参数，并且模型的简单性意味着它需要非常少的数据就

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。