自然语言处理
gbl5555
小菜鸟也可以飞得很高
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RNN 真的会梯度消失么
学过RNN的想必都听过下面的言论, “RNN容易产生梯度消失和梯度爆炸”,“RNN不能捕获长期记忆”,那么 RNN为什么不能捕获长期记忆?RNN真的就会发生梯度消失和爆炸吗? 先来个答案,当序列很长的时候,RNN确实不能捕获长期依赖关系,也确实容易梯度爆炸,但是否容易梯度消失,却要好好分析下,亦或者说,RNN梯度消失不同于我们往常理解的“MLP、CNN等里面的梯度消失”。详细解说请往下看~ ...原创 2020-04-07 14:22:24 · 761 阅读 · 0 评论 -
为什么预训练模型那么好用?
一模一样的模型架构, 直接用领域数据训练模型,可能生成效果贼差,语句不通也是常事。 在预训练的bert上,微调bert权重,生成效果通顺又好~ 为什么呢? 第一,领域数据太少。 第二,学习难度大。就像人学习,如果拥有通用知识,比如学过高中语文,在此基础上去学领域知识会更容易,如果连基本造句都不会,就去学专业知识,怕是头都大了。而预训练模型用了大量的维基百科等通用数据来教会模型基础知识...原创 2020-03-17 15:52:14 · 3296 阅读 · 0 评论 -
Word2Vec原理
本篇不是入门型文章,仅记录关于word2vec的一点思考,欢迎大家一起讨论。为了更好地表达,本文会采用cs224n官网以及刘建平老师的博客中的一些图片,在下面的介绍中不再一一注明出处。 目录 一、原始的word2vec模型架构 二、原始word2vec的改进 2.1Hierarchical Softmax 2.2Negative Sampling 一、原始的word2vec模型...原创 2019-12-30 22:21:05 · 752 阅读 · 10 评论
分享