
paper-reading
yealxxy
一直学习计算机,了解互联网发展趋势。
展开
-
BPE论文解读
论文:Neural Machine Translation of Rare Words with Subword Unitshttps://github.com/rsennrich/subword-nmt1,一般的词库生成方式:提出问题词库生成方法:在做nlp的时候,对语料生成词库。为了不让字典太大,我们通常只会把出现频次大于某个阈值的词丢到字典里边,剩下所有的词都统一编码成#UNK。问...原创 2019-08-20 21:00:01 · 2696 阅读 · 0 评论 -
Subword Regularization
论文:Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates1,动机subword的问题:子词分割可能是模糊的,即使使用相同的词汇,也可能进行多次分割。BPE的缺点在于,它不能提供多种分割的概率。因此不能作为Regularization分割的方法。...原创 2019-08-21 21:10:52 · 1162 阅读 · 1 评论 -
RAdam论文解读
中国博士生提出最先进AI训练优化器,收敛快精度高,网友亲测:Adam可以退休了论文解读:Radam:ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND上面的了链接是对论文的解读,这里只是我个人的理解。1,目的想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较号。目前sgd收敛较好,但是慢。adam收敛快,但是容易...原创 2019-08-17 17:48:24 · 10039 阅读 · 4 评论