本文重在模型代码运行部分~
附上Github链接:xiaohuiyan / BTM
如果在linux环境下,代码包含 运行示例:
$ cd script
$ sh runExample.sh
windows下可分4步:
第1步: 为文档中的单词建立索引
id从0号开始
python script/indexDocs.py <doc_pt> <dwid_pt> <voca_pt>
<doc_pt> 输入要索引的文档,每行是一个文档,格式为 “word word…”
<dwid_pt> 输出文档索引,每行都是一个格式为 “wordId wordId…” 的文档
<voca_pt> 输出词汇文件,每行是一个 “wordId word” 格式的单词