自然语言处理(三 RNNLM优化)

本文探讨了如何通过数据预处理、模型结构改进、输入数据调整及正则化等方式提升RNNLM(循环神经网络语言模型)的性能,具体包括使用droprate选择句子中的词语、引入CNN和NCE机制、采用subword级模型以及应用dropout等方法。

RNN LM性能改进

主要改进trick:输入数据预处理,改进模型结构,改变输入数据格式,正则化

数据预处理

(1)随机选取句子中的部分词语进行表示(使用drop rate选取句子中的词语);
(2)bigram 内插、平滑等

模型结构改进

(1)SRNN->LSTM->GRU->minimal RNN
(2)LSTM前添加CNN,选取不同长度的filter函数能够抓取一些短语信息;
(3)NCE机制,能够加快Softmax层计算
(4)快速LM训练:HS, Negative Sampling,NCE
(5)若是训练word2vec,可以推荐facebook的fasttext工具。

改变模型输入数据

word level LM -> subword level LM -> character level LM

正则化

避免模型过拟合,可以采用drop out等正则化方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值