Faster-rnnlm代码分析1 - 词表构建,Nnet成员

weixin_34119545

于 2015-11-08 14:42:00 发布

阅读量129

点赞数

本文介绍了一种快速的递归神经网络语言模型（Faster RNNLM）的训练流程与实现细节，包括词频统计、词汇表构建、模型配置参数设置及各层网络组件初始化等内容。

https://github.com/yandex/faster-rnnlm

Gdb ./rnnlm

r -rnnlm model-good.faster -train thread.title.good.train.txt -valid thread.title.good.valid.txt -hidden 5- -direct-order 3 -direct 200 -bptt 4 -bptt-block 10 -threads 1

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# more thread.title.good.train.txt

唉稳凉菜干货批发稳左成个月都

咦丢图跑

毕竟新人

我想去旅行

昨天玩个满深渊人马才踩了 55

这状态还不如温网

新型投资项目

晒早饭就酱

渣土哥真是太放肆了

推荐就是有这样的

白素贞水漫文水城

我知道那些夏天就像你一样回不

渑池至洛阳最早的车几点哪里坐到洛阳几点

宏观方面大的流动性格局虽无明显变化但眼下地方政府债务限

电工行业竞争大锦力电器有优势

兄弟啊影技 1 班 q 群是多少

你们家乡话叫什么

深深的孤独感与挫败感感觉个人

一起去旅游吧

谁知道四会那里有修打火机的

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# pwd

/home/users/chenghuige/other/faster-rnnlm.debug/faster-rnnlm

统计词频建立vocabulary

void Vocabulary::BuildFromCorpus(const std::string& fpath, bool show_progress)

首先添加一个 </s>

AddWord(kEOSTag); 只是编号0

然后逐个添加每行

每行处理的时候按照IsSpace切分

inline bool IsSpace(char c) {

return c == ' ' || c == '\r' || c == '\t' || c == '\n';

然后其实就是对每个词类似 Identifer.h那样顺序编号，没出现的词叫做oov 编号 -1

除了编号之外同时统计频次

最后按照频次排序从大到小同时更新编号也就是频次最大的这里 </s> 编号为0

(gdb) p words_

$20 = std::vector of length 176788, capacity 262144 = {{freq = 900000, word = 0x6ae1c0 "</s>"}, {

freq = 258246, word = 0x6aef20 "\265\304"}, {freq = 126910, word = 0x6aeff0 "\301\313"}, {

freq = 101904, word = 0x6aedc0 "\316\322"}, {freq = 67328, word = 0x6aeee0 "\323\320"}, {

freq = 62290, word = 0x6aec10 "\270\366"}, {freq = 60866, word = 0x6afb20 "\322\273"}, {

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# wc -l thread.title.good.train.txt

900000 thread.title.good.train.txt

gdb) p cfg

$2 = {layer_size = 5, layer_count = 1, maxent_hash_size = 199947228, maxent_order = 3, use_nce = false, nce_lnz = 9, reverse_sentence = false, layer_type = "sigmoid"}

构建网格结构

main_nnet = new NNet(vocab, cfg, use_cuda, use_cuda_memory_efficient);

构造函数调用Init 在这里

embeddings.resize(vocab.size(), cfg.layer_size);

//(word_num, hidden_size) 二维数组

rec_layer = CreateLayer(cfg.layer_type, cfg.layer_size, cfg.layer_count);

//隐层建立一个layer 默认layer_type是sigmoid

maxent_layer.Init(cfg.maxent_hash_size);

//最大熵 @TODO

softmax_layer = HSTree::CreateHuffmanTree(vocab, cfg.layer_size);

//输出层 softmax 采用huffman树

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。