准备语料
准备好中文语料:中文语料库,或者使用Leavingseason准备好的语料进行训练:http://pan.baidu.com/s/1jHZCvvo
准备源码
到斯坦福GloVe开源代码gihub地址下载代码;解压后将语料×××.txt添加到GloVe-master文件夹下
修改训练语料地址
打开demo.sh文件,修改相应的内容
因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉
修改参数设置,将CORPUS设置成语料的名字
CORPUS=text8 要生成词向量的文本
VOCAB_FILE=vocab.txt 得到的词和词频
COOCCURRENCE_FILE=cooccurrence.bin
COOC