word2vec 中文训练小试牛刀
所用语料: 1998年人民日报语料,北京大学提供。
测试环境: Ubunt 14.10
下载好的语料已经是分好词的,把词性标注去掉就直接用作词向量的训练了。总大小 8.2 MB。
由于训练语料库的特殊性,算出来的 distance 很有意思,如下:
所用语料: 1998年人民日报语料,北京大学提供。
测试环境: Ubunt 14.10
下载好的语料已经是分好词的,把词性标注去掉就直接用作词向量的训练了。总大小 8.2 MB。
由于训练语料库的特殊性,算出来的 distance 很有意思,如下: